카카오, 한국형 멀티모달 AI ‘카나나’ 기술 공개…GPT-4o급 음성 성능 확보

카카오가 12일 테크블로그를 통해 한국형 멀티모달 AI 모델 'Kanana-o'와 멀티모달 임베딩 모델 'Kanana-v-embedding'의 개발 과정과 성능을 공개했다. 카카오는 이번 발표로 자체 AI 모델의 기술적 완성도를 강조하며 다양한 서비스 적용 가능성을 내비쳤다.

Kanana-o는 텍스트, 음성, 이미지 등 여러 입력을 동시에 이해하고 실시간으로 응답하는 통합 멀티모달 언어모델이다. 한국어 맥락 이해 능력이 강점으로, 자연스러운 대화 흐름과 표현력을 구현할 수 있는 것이 특징이다. 카카오는 기존 멀티모달 모델이 텍스트 처리에는 강하지만 음성 대화에서는 표현력이 단순해지고 추론 능력이 떨어지는 한계를 보완하기 위해 Kanana-o의 지시이행 성능과 복합 요구 분석 능력을 강화했다.

이를 위해 자체 구축한 학습 데이터셋을 활용해 다양한 입력 형태를 처리하는 능력을 높였고, 요약, 감정·의도 분석, 오류 수정, 형식 변환, 번역 등 복합적 작업 수행 범위도 확장했다. 고품질 음성 데이터와 DPO 방식도 적용해 억양, 감정, 호흡 등을 반영한 세밀한 음성 표현을 구현했다. 팟캐스트 형태의 멀티턴 대화 데이터로 학습을 진행해 끊김 없는 자연스러운 대화 흐름도 확보했다.

벤치마크 평가에서 Kanana-o는 영어 음성 성능이 GPT-4o와 유사한 수준을 기록했으며, 한국어 음성 인식·합성·감정 인식에서는 더욱 높은 성능을 보였다. 카카오는 향후 Kanana-o를 동시 대화와 실시간 사운드스케이프 생성까지 가능한 모델로 고도화할 계획이다.

함께 공개된 Kanana-v-embedding은 텍스트와 이미지를 동시에 이해하는 한국형 멀티모달 임베딩 모델로, 이미지 검색 기술이 핵심이다. 텍스트로 이미지를 찾거나 이미지를 기반으로 연관 정보를 검색하는 기능, 이미지 포함 문서 검색 기능을 제공한다. 한국 문화 이해도가 높아 '경복궁', '붕어빵' 등 고유명사뿐 아니라 '하멜튼 치즈'처럼 오타가 포함된 단어도 정확히 인식해 이미지를 찾아준다. '한복 입고 찍은 단체 사진'처럼 복합 조건도 정확히 해석해 불필요한 결과를 걸러낼 수 있다.

현재 Kanana-v-embedding은 카카오 내부 광고 심사 시스템에서 실제 운영 중이며, 향후 비디오·음성 기반 모델로 확장해 다양한 서비스에 적용할 예정이다.

카카오는 지난 5월 공개한 Kanana-1.5를 기반으로 모바일 기기 등 온디바이스 환경에서 작동하는 경량 멀티모달 모델 연구를 이어가고 있다. 동시에 MoE 구조 기반의 고성능 모델 'Kanana-2' 개발에도 착수했다.

카카오 김병학 카나나 성과리더는 "카나는 단순한 정보 나열이 아닌 사용자 감정과 맥락을 이해하는 대화형 AI가 되는 것이 목표"라며 "실제 서비스에서 자연스럽게 쓰일 수 있는 한국형 AI 경험을 확장하고 사람과 상호작용하는 AI 구현에 집중하겠다"고 말했다.

메트로人

머니

산업

IT·과학

정치＆정책

생활경제

사회

에듀＆JOB

기획연재

오피니언

라이프

플러스

독자서비스

포럼＆컨퍼런스

카카오, 한국형 멀티모달 AI ‘카나나’ 기술 공개…GPT-4o급 음성 성능 확보

기사이력코드