울산과학기술원 연구진, 단어로 3D 공간 속 물체 찾는 AI 기술 개발

ScanNet 데이터셋을 이용한 3D 의미 분할 실험 결과. 라면 위의 달걀, 찻잔, 주걱 등을 기존보다 더 정확하게 인식했다. 이미지/UNIST

"흰색 소파"나 "라면 위 달걀"처럼 말로 입력하면 3차원 공간에서 그 물체를 찾아내는 인공지능(AI) 기술이 나왔다.

울산과학기술원(UNIST)은 인공지능대학원 주경돈 교수팀이 사용자가 입력한 단어나 문장을 토대로 3D 복원 공간 속 대상을 짚어내는 오픈어휘 기반 3D 공간 인식 기술 'LightSplat'을 개발했다고 8일 밝혔다. 오픈어휘란 의자·책상·문처럼 미리 정해 둔 범주에만 묶이지 않고, 사람이 자유롭게 쓰는 표현으로 대상을 찾을 수 있다는 뜻이다.

로봇이나 증강 현실(AR) 기기는 카메라로 들어온 2D 이미지를 위치·색·투명도 정보를 가진 작은 점 입자들이 모인 3D 공간으로 복원한다. 3D 공간 인식은 이렇게 복원한 공간에서 어떤 물체가 어디에, 얼마만큼의 영역을 차지하는지 찾아내는 기술이다. 연구팀 기술은 이 과정에서 구체적이고 다양한 표현까지 알아듣는다는 점이 기존 방식과 다르다.

성능 개선의 핵심은 데이터를 다루는 방식에 있다. 기존 기술은 점 입자마다 긴 숫자 형태의 언어 특징값을 저장하지만, LightSplat은 점마다 2바이트짜리 짧은 인덱스만 붙이고 실제 의미 정보는 별도 표에 보관했다가 필요할 때 인덱스로 찾아 쓰는 방식을 택했다. 또 물체 표현에 영향을 주는 점에만 인덱스를 달고, 여러 이미지에 흩어진 같은 물체 정보를 하나로 묶었다.

이를 통해 메모리 사용량은 기존 오픈어휘 3D 공간 인식 기술의 64분의 1 수준으로 줄었다. 자연어로 검색할 수 있는 상태로 만드는 데 걸리는 시간도 약 5초로, 기존 최신 기술보다 50~400배 빨랐다.

효율을 높이면서도 인식 성능은 오히려 더 나았다. LERF-OVS와 DL3DV-OVS 데이터셋 실험에서 유리잔에 담긴 차처럼 작은 대상부터 멀리 있는 자동차, 사무실 가구까지 또렷이 구분했다. ScanNet 3D 의미 분할 실험에서는 19개 분류 기준 mIoU 37.11을 기록했다. mIoU는 AI가 찾은 영역이 실제 정답 영역과 얼마나 겹치는지를 보는 지표다.

주경돈 교수는 "사람의 말로 지시를 바로 수행할 수 있는 인간-기계 상호 작용이 강화된 로봇 개발, 텍스트로 대상을 바로 지정해 편집을 돕는 AR·VR 콘텐츠 제작, 디지털 트윈 기술 등에 적용 가능할 것"이라고 기대했다.

이번 연구는 과학기술정보통신부와 정보통신기획평가원(IITP)의 인공지능대학원 지원사업 등의 지원을 받았으며, 컴퓨터 비전 분야 최고 권위 학회인 CVPR 2026에 채택됐다. CVPR 2026은 지난 3일부터 5일간 미국 덴버에서 열렸다.

메트로人

머니

산업

IT·과학

정치＆정책

생활경제

사회

에듀＆JOB

기획연재

오피니언

라이프

플러스

독자서비스

포럼＆컨퍼런스

울산과학기술원 연구진, 단어로 3D 공간 속 물체 찾는 AI 기술 개발