메트로人 머니 산업 IT·과학 정치&정책 생활경제 사회 에듀&JOB 기획연재 오피니언 라이프 AI영상 플러스
글로벌 메트로신문
로그인
회원가입

    머니

  • 증권
  • 은행
  • 보험
  • 카드
  • 부동산
  • 경제일반

    산업

  • 재계
  • 자동차
  • 전기전자
  • 물류항공
  • 산업일반

    IT·과학

  • 인터넷
  • 게임
  • 방송통신
  • IT·과학일반

    사회

  • 지방행정
  • 국제
  • 사회일반

    플러스

  • 한줄뉴스
  • 포토
  • 영상
  • 운세/사주
사회>교육

김수연 세종대 교수, 국내 최초 80개국 외국인 한국어 음성 데이터 구축

외국인의 어눌한 한국어 발음도 판독
인천국제공항 외국인 전용 키오스크 음성인식기에 적용 예정

김수연(왼쪽에서 두 번째) 교수 연구팀/세종대 제공

세종대학교(총장 배덕효)는 김수연 영어영문학과 교수가 국내 최초로 80개국 외국인의 한국어 음성 데이터를 구축하는 데 성공했다고 16일 밝혔다.

 

김 교수의 한국어 음성 데이터 구축은 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능(AI) 학습용 데이터' 구축사업의 일환으로 진행됐다. 사업은 음성인식 인공지능을 학습시키는 데이터 수집을 목적으로 수행됐다. 학습된 인공지능은 외국인의 어눌한 한국어 발음까지 정확히 알아들을 수 있다.

 

김 교수는 세종대, 이화여대와 cslee, 드림비트, 디그랩, 액션파워 등 민간기업 4곳으로 구성된 산학협력단에서 이번 사업을 기획하고 주도했다.

 

김 교수의 언어인지 연구실 연구팀은 인공지능의 한국말 인식 정확도를 향상하기 위해 한국전자통신연구원(ETRI)의 인공지능 연구실과 협력했다. 연구 협력을 통해 학습용 데이터에 대한 기초연구를 수행한 후 구축사업을 진행했다.

 

연구팀은 기초연구로서 언어학적 분석을 통해 언어권별로 한국말을 어떻게 잘못 발음하는지 파악했다. 크게 영어, 중국어, 일본어, 태국어, 베트남어, 기타 등 6개 언어군별로 '모국어별 오류 패턴'을 정리했다. 인공지능에 언어권별 한국어 발음 방식의 차이를 학습시키는 것이 중요했다.

 

연구팀은 지난해 4월부터 12월까지 8개월에 걸쳐 총 4300시간 분량의 인공지능 학습용 데이터를 구축했다. 외국인 2000명을 대상으로 언어별 오류를 극대화한 한국어 대본을 읽게 했다. 참여국 80곳, 모국어 수 65개에 달하는 음성 데이터를 수집하고 가공했다.

 

AI 학습용 데이터는 누구나 사용할 수 있도록 개발될 예정이다. 특히 인천국제공항에서 볼 수 있는 외국인 전용 키오스크의 음성인식기에 적용될 예정이다.

 

ETRI의 한국어 학습용 인공지능 모델 개발에도 활용된다. 민간기업도 'AI 허브' 포털에서 데이터를 무료로 내려받을 수 있다.

 

김 교수는 "외국인의 한국어 음성 데이터는 구축 난도가 상당해 그간 업계에서도 희귀 데이터로 꼽혔다"며 "한국의 경제적 위상 상승과 한류의 영향으로 한국어는 학습자가 가장 많이 늘어나고 있는 언어 중 하나다. 앞으로 음성 데이터가 더 구축되면 각 언어에 특화된 한국어 AI 학습기도 개발할 수 있을 것"이라고 말했다.

 

트위터 페이스북 카카오스토리 Copyright ⓒ 메트로신문 & metroseoul.co.kr