울산과학기술원(UNIST) 인공지능대학원 윤성환 교수팀이 데이터 정렬 작업 없이도 서로 다른 유형의 데이터를 함께 학습할 수 있는 새로운 AI 멀티모달 학습 기술을 개발했다고 7일 밝혔다.
이번에 개발된 기술은 한 유형의 데이터만 가르쳐도 다른 유형의 데이터 학습을 촉진할 수 있는 학습 방식으로, 기존에 필수적이라고 여겨지던 데이터 정렬 작업이 필요 없어 데이터셋 구축 비용과 시간을 크게 절감할 수 있게 됐다.
멀티모달 학습은 오디오, 이미지, 텍스트와 같이 서로 다른 데이터 유형을 통합적으로 이해하고 처리하는 학습법이다.
기존에는 이런 다양한 유형의 데이터를 정렬하고 쌍을 이루는 라벨링 과정이 필요해 많은 비용이 소모됐으며 명확히 짝지어진 데이터가 부족할 경우 성능이 저하되는 문제가 있었다.
연구팀 실험에서는 텍스트 모델이 이미지 모델 학습을 돕거나, 오디오 모델이 언어 모델 성능을 높이는 등 기존 방식보다 높은 정확도를 기록하며 모달리티 간 학습 촉진 효과를 확인했다.
특히 오디오와 이미지처럼 직접적인 연관성이 적은 조합에서도 AI 성능이 향상됐다.
제1저자인 이재준 연구원은 "서로 관련 없어 보이는 오디오와 이미지 조합에서도 성능이 향상된 것은, 기존 멀티모달 학습 방식에 대한 고정관념을 깨는 흥미로운 결과"라고 설명했다.
윤성환 교수는 "정렬된 데이터 세트 확보가 어려운 의료, 자율주행, 스마트 AI 비서 등 다양한 분야에서 활용 가능성이 높다"고 전망했다.
이번 연구 결과는 세계 인공지능 3대 학회인 ICLR 2025에 채택됐다. ICLR 2025는 지난달 24일부터 28일까지 싱가포르에서 개최됐으며, 1만 1672편의 논문 가운데 3646편이 채택됐다.
Copyright ⓒ Metro. All rights reserved. (주)메트로미디어의 모든 기사 또는 컨텐츠에 대한 무단 전재ㆍ복사ㆍ배포를 금합니다.
주식회사 메트로미디어 · 서울특별시 종로구 자하문로17길 18 ㅣ Tel : 02. 721. 9800 / Fax : 02. 730. 2882
문의메일 : webmaster@metroseoul.co.kr ㅣ 대표이사 · 발행인 · 편집인 : 이장규 ㅣ 신문사업 등록번호 : 서울, 가00206
인터넷신문 등록번호 : 서울, 아02546 ㅣ 등록일 : 2013년 3월 20일 ㅣ 제호 : 메트로신문
사업자등록번호 : 242-88-00131 ISSN : 2635-9219 ㅣ 청소년 보호책임자 및 고충처리인 : 안대성