메트로人 머니 산업 IT·과학 정치&정책 생활경제 사회 에듀&JOB 기획연재 오피니언 라이프 AI영상 플러스
글로벌 메트로신문
로그인
회원가입

    머니

  • 증권
  • 은행
  • 보험
  • 카드
  • 부동산
  • 경제일반

    산업

  • 재계
  • 자동차
  • 전기전자
  • 물류항공
  • 산업일반

    IT·과학

  • 인터넷
  • 게임
  • 방송통신
  • IT·과학일반

    사회

  • 지방행정
  • 국제
  • 사회일반

    플러스

  • 한줄뉴스
  • 포토
  • 영상
  • 운세/사주
산업>전기/전자

LG AI연구원, 이미지 읽고 설명하는 '글로벌 AI 챌린지' 개최…'엑사원' 생태계 확대 기대

초거대 AI의 이미지 캡셔닝 과정

LG AI연구원이 이미지를 읽는 인공지능 기술을 겨루는 자리를 마련했다. 시각 AI와 언어 AI 융합 트렌드를 주도하기 위한 선제적 조치다.

 

LG AI 연구원은 2월 1일부터 4월 말까지 온라인을 통해 'LG 글로벌 AI 챌린지'를 개최한다고 31일 밝혔다.

 

이 대회는 '제로샷 이미지 캡셔닝'을 주제로 한다.AI가 처음 본 이미지를 얼마나 정확하게 이해하고 설명하는지를 평가한다.

 

'제로샷 이미지 캡셔닝'은 AI가 사람처럼 학습 데이터를 기반으로 이미지를 보고 텍스트로 설명하는 기술이다. 고도화되면 AI 기술 정확성과 공정성이 높아지고 실생활에 도움을 주는 기술로 개발될 수 있을 것으로 기대된다. 검색 엔진은 물론 의학 전문가 AI로도 활용할 수 있다.

 

LG는 제로샷 이미지 캡셔닝이 초거대 AI 엑사원' 생태계에 크게 기여할 것으로 기대하고 있다. 최근 '생성형 AI 모델' 고도화와 함께 챗 GPT까지 발전하면서 혁신이 기대된다.

 

LG AI연구원은 공동연구센터를 설립해 초거대 멀티모달 AI인 '엑사원(EXAONE)'을 연구 중인 '서울대학교 AI대학원', 이미지 캡셔닝 AI의 상용화 서비스를 공동으로 준비 중인 '셔터스톡'과 함께 이번 경진 대회를 진행한다. 고품질 이미지-텍스트 데이터셋 2만6000개를 제공받아 저작권과 품질 우려 없이 참여자가 자유롭게 쓸 수 있도록 했다.

 

이경무 서울대 AI대학원 석좌교수는 "이미지 캡셔닝은 영상에 나오는 객체들의 관계부터 상황과 문맥까지 이해해 인간의 언어로 표현하고 설명하게 하는 것으로 AI가 인간의 지능에 얼마나 가까워졌는지 보여주는 하나의 척도"라며, "학습 데이터 없이도 이러한 작업을 수행하는 제로샷 이미지 캡셔닝은 매우 도전적인 문제이자 세계적으로도 최근에 연구가 시작된 분야로 LG AI연구원과 서울대 AI대학원, 셔터스톡이 세계 최초로 챌린지와 워크샵을 공동 진행하는 것은 우리나라의 AI 역량이 이미 세계적인 수준에 도달했다는 것을 의미하며 또한 국제적 리더십을 더욱 높이는 계기가 될 것으로 생각한다"고 말했다.

 

아울러 LG AI연구원은 올해 6월 캐나다 밴쿠버에서 열리는 컴퓨터 비전 분야 세계 최고 권위 학회인 'CVPR 2023'에서 '제로샷 이미지 캡셔닝 평가의 새로운 개척자들'을 주제로 워크샵을 진행한다. 구글, 마이크로소프트 등에서 AI 연구를 진행하고 있는 산업계 전문가들을 비롯해 글로벌 석학들과 함께 이미지 캡셔닝 기술 연구의 방향성과 확장성, AI 윤리 문제에 관해 심도 있는 논의를 진행할 계획이다. 'LG 글로벌 AI 챌린지' 최종 수상팀도 성과를 발표한다.

 

김승환 LG AI연구원 비전랩장은 "LG AI연구원은 현재 생성형 AI 뿐 아니라, 객체를 인식하는 기술 수준을 넘어 인간 수준으로 영상까지 이해하는 AI로 퀀텀 점프할 수 있는 가능성을 확인했다"며 "세계적인 학회에서 영상 이해의 핵심 기술이자 기반 기술인 이미지 캡셔닝을 주제로 대회를 개최한 것은 LG가 컴퓨터 비전 분야의 글로벌 입지를 보여준 계기이며, 이번 대회를 통해 전 세계 AI 연구자들과 함께 연구의 의의와 필요성, 그리고 확장 가능성에 관해 함께 논의하는 장을 만들고자 한다"고 말했다.

 

트위터 페이스북 카카오스토리 Copyright ⓒ 메트로신문 & metroseoul.co.kr