메트로人 머니 산업 IT·과학 정치&정책 생활경제 사회 에듀&JOB 기획연재 오피니언 라이프 AI영상 플러스
글로벌 메트로신문
로그인
회원가입

    머니

  • 증권
  • 은행
  • 보험
  • 카드
  • 부동산
  • 경제일반

    산업

  • 재계
  • 자동차
  • 전기전자
  • 물류항공
  • 산업일반

    IT·과학

  • 인터넷
  • 게임
  • 방송통신
  • IT·과학일반

    사회

  • 지방행정
  • 국제
  • 사회일반

    플러스

  • 한줄뉴스
  • 포토
  • 영상
  • 운세/사주
IT/과학>모바일

카카오브레인, 국내 최대 규모 데이터셋 ‘코요’ 외부 공개

/카카오브레인CI

카카오브레인이 초거대 AI 연구 개발 저변을 확대하고자 국내 최대 규모의 이미지-텍스트 데이터셋을 외부에 공개한다.

 

카카오브레인(대표 김일두)이 약 7억 4천만 개의 이미지-텍스트로 이루어진 데이터셋 'Coyo(이하 코요)'를 오는 31일 카카오브레인 공식 홈페이지를 통해 공개한다고 밝혔다. 초거대 AI 개발의 기반이자 기업의 핵심 자산인 데이터셋을 외부에 공개하는 것은 매우 이례적이다.

 

데이터셋은 초거대 AI 모델이 정교한 결과값을 구현하는 데 필요한 핵심 요소 중 하나다. 높은 성능을 위해 많은 기업들이 수작업으로 이미지-텍스트 쌍을 맞추어 데이터셋을 수집하는데, 이때 높은 비용과 많은 시간이 투입된다.

 

카카오브레인은 '코요' 개발 시, 독자 개발한 기술로 이미지-텍스트를 온라인에서 자동 수집함으로써 투입되는 비용과 시간을 효과적으로 줄이고, 동시에 양질의 데이터를 선별하여 높은 성능을 구현했다. 실제로 유수의 글로벌 AI 기업에서 공개한 초거대 AI 모델 재현을 통해 교차 검증을 마치며 데이터의 품질을 확인했다.

 

'코요'는 카카오브레인이 앞서 공개한 초거대 AI 이미지 생성 모델 'RQ-Transformer'와 AI 아티스트 '칼로(Karlo)' 개발에 적용됐다. 4월에 공개한 'RQ-Transformer'는 기술의 우수성을 종합적으로 인정받아 6월에 열린 세계적 학술대회 CVPR 2022에서 해당 논문의 발표 기회를 얻었으며, 최근 현대미술가 고상우, 삼성전자 '갤럭시 북 아트 프로젝트' 와의 협업을 통해 AI 아티스트 '칼로'의 활용 가능성을 입증한 바 있다.

 

김일두 카카오브레인 대표는 "이번 데이터셋 공개는 초거대 AI 기술 개발에 박차를 가할 중요한 근간이자 이정표가 될 것"이라며, "앞으로도 카카오브레인은 다방면으로 기술 리더십을 선도하고 AI 커뮤니티와 협력하며 AI 생태계 발전에 이바지할 것"이라고 말했다.

트위터 페이스북 카카오스토리 Copyright ⓒ 메트로신문 & metroseoul.co.kr