"흰색 소파"나 "라면 위 달걀"처럼 말로 입력하면 3차원 공간에서 그 물체를 찾아내는 인공지능(AI) 기술이 나왔다.
울산과학기술원(UNIST)은 인공지능대학원 주경돈 교수팀이 사용자가 입력한 단어나 문장을 토대로 3D 복원 공간 속 대상을 짚어내는 오픈어휘 기반 3D 공간 인식 기술 'LightSplat'을 개발했다고 8일 밝혔다. 오픈어휘란 의자·책상·문처럼 미리 정해 둔 범주에만 묶이지 않고, 사람이 자유롭게 쓰는 표현으로 대상을 찾을 수 있다는 뜻이다.
로봇이나 증강 현실(AR) 기기는 카메라로 들어온 2D 이미지를 위치·색·투명도 정보를 가진 작은 점 입자들이 모인 3D 공간으로 복원한다. 3D 공간 인식은 이렇게 복원한 공간에서 어떤 물체가 어디에, 얼마만큼의 영역을 차지하는지 찾아내는 기술이다. 연구팀 기술은 이 과정에서 구체적이고 다양한 표현까지 알아듣는다는 점이 기존 방식과 다르다.
성능 개선의 핵심은 데이터를 다루는 방식에 있다. 기존 기술은 점 입자마다 긴 숫자 형태의 언어 특징값을 저장하지만, LightSplat은 점마다 2바이트짜리 짧은 인덱스만 붙이고 실제 의미 정보는 별도 표에 보관했다가 필요할 때 인덱스로 찾아 쓰는 방식을 택했다. 또 물체 표현에 영향을 주는 점에만 인덱스를 달고, 여러 이미지에 흩어진 같은 물체 정보를 하나로 묶었다.
이를 통해 메모리 사용량은 기존 오픈어휘 3D 공간 인식 기술의 64분의 1 수준으로 줄었다. 자연어로 검색할 수 있는 상태로 만드는 데 걸리는 시간도 약 5초로, 기존 최신 기술보다 50~400배 빨랐다.
효율을 높이면서도 인식 성능은 오히려 더 나았다. LERF-OVS와 DL3DV-OVS 데이터셋 실험에서 유리잔에 담긴 차처럼 작은 대상부터 멀리 있는 자동차, 사무실 가구까지 또렷이 구분했다. ScanNet 3D 의미 분할 실험에서는 19개 분류 기준 mIoU 37.11을 기록했다. mIoU는 AI가 찾은 영역이 실제 정답 영역과 얼마나 겹치는지를 보는 지표다.
주경돈 교수는 "사람의 말로 지시를 바로 수행할 수 있는 인간-기계 상호 작용이 강화된 로봇 개발, 텍스트로 대상을 바로 지정해 편집을 돕는 AR·VR 콘텐츠 제작, 디지털 트윈 기술 등에 적용 가능할 것"이라고 기대했다.
이번 연구는 과학기술정보통신부와 정보통신기획평가원(IITP)의 인공지능대학원 지원사업 등의 지원을 받았으며, 컴퓨터 비전 분야 최고 권위 학회인 CVPR 2026에 채택됐다. CVPR 2026은 지난 3일부터 5일간 미국 덴버에서 열렸다.
Copyright ⓒ 메트로신문 & metroseoul.co.kr
Copyright ⓒ Metro. All rights reserved. (주)메트로미디어의 모든 기사 또는 컨텐츠에 대한 무단 전재ㆍ복사ㆍ배포를 금합니다.
주식회사 메트로미디어 · 서울특별시 종로구 자하문로17길 18 ㅣ Tel : 02. 721. 9800 / Fax : 02. 730. 2882
문의메일 : webmaster@metroseoul.co.kr ㅣ 대표이사 · 발행인 · 편집인 : 이장규 ㅣ 신문사업 등록번호 : 서울, 가00206
인터넷신문 등록번호 : 서울, 아02546 ㅣ 등록일 : 2013년 3월 20일 ㅣ 제호 : 메트로신문
사업자등록번호 : 242-88-00131 ISSN : 2635-9219 ㅣ 청소년 보호책임자 및 고충처리인 : 안대성