메트로人 머니 산업 IT·과학 정치&정책 생활경제 사회 에듀&JOB 기획연재 오피니언 라이프 AI영상 플러스
글로벌 메트로신문
로그인
회원가입

    머니

  • 증권
  • 은행
  • 보험
  • 카드
  • 부동산
  • 경제일반

    산업

  • 재계
  • 자동차
  • 전기전자
  • 물류항공
  • 산업일반

    IT·과학

  • 인터넷
  • 게임
  • 방송통신
  • IT·과학일반

    사회

  • 지방행정
  • 국제
  • 사회일반

    플러스

  • 한줄뉴스
  • 포토
  • 영상
  • 운세/사주
IT/과학>IT/인터넷

카카오, 경량 멀티모달 언어모델 및 MoE 모델 오픈소스 공개

카나나-v, 국내외 모델과 비교 도표 /카카오

카카오는 24일, 이미지와 텍스트 정보를 동시에 이해할 수 있는 경량 멀티모달 언어모델 '카나나(Kanana)-1.5-v-3b'와, 효율성을 높인 MoE(Mixture of Experts) 구조의 언어모델 '카나나-1.5-15.7b-a3b'를 오픈소스로 공개했다. 두 모델은 모두 카카오가 독자적으로 설계·개발한 카나나 시리즈 기반이다.

 

'카나나-1.5-v-3b'는 텍스트뿐 아니라 이미지 입력을 이해해 자연어로 응답할 수 있는 경량 멀티모달 모델이다. 한국어와 영어 이미지에 대한 이해도와 질문 의도 파악 능력이 특징이며, 국내외 유사 크기 공개 모델과의 비교에서 높은 성능을 기록했다.

 

모델은 지식 증류(Knowledge Distillation)와 인간 선호 반영 학습(Human Preference Alignment Training) 등을 통해 경량 구조임에도 정교한 응답을 도출할 수 있도록 설계됐다.

 

이 모델은 이미지 인식, 도표 해석, 수학 문제 풀이, 문화유산 설명 등 다양한 응용 분야에 활용 가능하다. 예를 들어, 장소 사진을 입력하면 해당 위치를 식별하고 설명하는 식의 기능을 수행할 수 있다.

 

함께 공개된 '카나나-1.5-15.7b-a3b'는 전체 파라미터 15.7B 중 약 3B만을 추론 시 활성화하는 MoE 아키텍처 기반 모델이다. 이 모델은 기존 3B 규모 모델에 다층 신경망 레이어를 복제·변환하는 '업사이클링' 방식을 적용해 개발됐다.

 

MoE 구조의 특성상 컴퓨팅 자원 사용을 줄이면서도, 일반적인 8B 모델 수준의 성능을 확보했다.

 

카카오는 하반기 중 추론 능력 향상을 목표로 한 에이전트형 AI 관련 성과도 공개할 예정이다. 또한 자체 기술 기반 모델을 지속 고도화하고, 상업적 활용이 가능한 오픈 라이선스를 유지해 연구자 및 개발자들의 활용도를 높인다는 방침이다.

 

한편 카카오는 앞서 카나나 시리즈 언어모델 4종을 아파치 2.0 라이선스로 공개한 바 있다.

 

트위터 페이스북 카카오스토리 Copyright ⓒ 메트로신문 & metroseoul.co.kr