카카오는 24일, 이미지와 텍스트 정보를 동시에 이해할 수 있는 경량 멀티모달 언어모델 '카나나(Kanana)-1.5-v-3b'와, 효율성을 높인 MoE(Mixture of Experts) 구조의 언어모델 '카나나-1.5-15.7b-a3b'를 오픈소스로 공개했다. 두 모델은 모두 카카오가 독자적으로 설계·개발한 카나나 시리즈 기반이다.
'카나나-1.5-v-3b'는 텍스트뿐 아니라 이미지 입력을 이해해 자연어로 응답할 수 있는 경량 멀티모달 모델이다. 한국어와 영어 이미지에 대한 이해도와 질문 의도 파악 능력이 특징이며, 국내외 유사 크기 공개 모델과의 비교에서 높은 성능을 기록했다.
모델은 지식 증류(Knowledge Distillation)와 인간 선호 반영 학습(Human Preference Alignment Training) 등을 통해 경량 구조임에도 정교한 응답을 도출할 수 있도록 설계됐다.
이 모델은 이미지 인식, 도표 해석, 수학 문제 풀이, 문화유산 설명 등 다양한 응용 분야에 활용 가능하다. 예를 들어, 장소 사진을 입력하면 해당 위치를 식별하고 설명하는 식의 기능을 수행할 수 있다.
함께 공개된 '카나나-1.5-15.7b-a3b'는 전체 파라미터 15.7B 중 약 3B만을 추론 시 활성화하는 MoE 아키텍처 기반 모델이다. 이 모델은 기존 3B 규모 모델에 다층 신경망 레이어를 복제·변환하는 '업사이클링' 방식을 적용해 개발됐다.
MoE 구조의 특성상 컴퓨팅 자원 사용을 줄이면서도, 일반적인 8B 모델 수준의 성능을 확보했다.
카카오는 하반기 중 추론 능력 향상을 목표로 한 에이전트형 AI 관련 성과도 공개할 예정이다. 또한 자체 기술 기반 모델을 지속 고도화하고, 상업적 활용이 가능한 오픈 라이선스를 유지해 연구자 및 개발자들의 활용도를 높인다는 방침이다.
한편 카카오는 앞서 카나나 시리즈 언어모델 4종을 아파치 2.0 라이선스로 공개한 바 있다.
Copyright ⓒ Metro. All rights reserved. (주)메트로미디어의 모든 기사 또는 컨텐츠에 대한 무단 전재ㆍ복사ㆍ배포를 금합니다.
주식회사 메트로미디어 · 서울특별시 종로구 자하문로17길 18 ㅣ Tel : 02. 721. 9800 / Fax : 02. 730. 2882
문의메일 : webmaster@metroseoul.co.kr ㅣ 대표이사 · 발행인 · 편집인 : 이장규 ㅣ 신문사업 등록번호 : 서울, 가00206
인터넷신문 등록번호 : 서울, 아02546 ㅣ 등록일 : 2013년 3월 20일 ㅣ 제호 : 메트로신문
사업자등록번호 : 242-88-00131 ISSN : 2635-9219 ㅣ 청소년 보호책임자 및 고충처리인 : 안대성