외국인의 어눌한 한국어 발음도 판독
인천국제공항 외국인 전용 키오스크 음성인식기에 적용 예정
세종대학교(총장 배덕효)는 김수연 영어영문학과 교수가 국내 최초로 80개국 외국인의 한국어 음성 데이터를 구축하는 데 성공했다고 16일 밝혔다.
김 교수의 한국어 음성 데이터 구축은 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능(AI) 학습용 데이터' 구축사업의 일환으로 진행됐다. 사업은 음성인식 인공지능을 학습시키는 데이터 수집을 목적으로 수행됐다. 학습된 인공지능은 외국인의 어눌한 한국어 발음까지 정확히 알아들을 수 있다.
김 교수는 세종대, 이화여대와 cslee, 드림비트, 디그랩, 액션파워 등 민간기업 4곳으로 구성된 산학협력단에서 이번 사업을 기획하고 주도했다.
김 교수의 언어인지 연구실 연구팀은 인공지능의 한국말 인식 정확도를 향상하기 위해 한국전자통신연구원(ETRI)의 인공지능 연구실과 협력했다. 연구 협력을 통해 학습용 데이터에 대한 기초연구를 수행한 후 구축사업을 진행했다.
연구팀은 기초연구로서 언어학적 분석을 통해 언어권별로 한국말을 어떻게 잘못 발음하는지 파악했다. 크게 영어, 중국어, 일본어, 태국어, 베트남어, 기타 등 6개 언어군별로 '모국어별 오류 패턴'을 정리했다. 인공지능에 언어권별 한국어 발음 방식의 차이를 학습시키는 것이 중요했다.
연구팀은 지난해 4월부터 12월까지 8개월에 걸쳐 총 4300시간 분량의 인공지능 학습용 데이터를 구축했다. 외국인 2000명을 대상으로 언어별 오류를 극대화한 한국어 대본을 읽게 했다. 참여국 80곳, 모국어 수 65개에 달하는 음성 데이터를 수집하고 가공했다.
AI 학습용 데이터는 누구나 사용할 수 있도록 개발될 예정이다. 특히 인천국제공항에서 볼 수 있는 외국인 전용 키오스크의 음성인식기에 적용될 예정이다.
ETRI의 한국어 학습용 인공지능 모델 개발에도 활용된다. 민간기업도 'AI 허브' 포털에서 데이터를 무료로 내려받을 수 있다.
김 교수는 "외국인의 한국어 음성 데이터는 구축 난도가 상당해 그간 업계에서도 희귀 데이터로 꼽혔다"며 "한국의 경제적 위상 상승과 한류의 영향으로 한국어는 학습자가 가장 많이 늘어나고 있는 언어 중 하나다. 앞으로 음성 데이터가 더 구축되면 각 언어에 특화된 한국어 AI 학습기도 개발할 수 있을 것"이라고 말했다.
Copyright ⓒ Metro. All rights reserved. (주)메트로미디어의 모든 기사 또는 컨텐츠에 대한 무단 전재ㆍ복사ㆍ배포를 금합니다.
주식회사 메트로미디어 · 서울특별시 종로구 자하문로17길 18 ㅣ Tel : 02. 721. 9800 / Fax : 02. 730. 2882
문의메일 : webmaster@metroseoul.co.kr ㅣ 대표이사 · 발행인 · 편집인 : 이장규 ㅣ 신문사업 등록번호 : 서울, 가00206
인터넷신문 등록번호 : 서울, 아02546 ㅣ 등록일 : 2013년 3월 20일 ㅣ 제호 : 메트로신문
사업자등록번호 : 242-88-00131 ISSN : 2635-9219 ㅣ 청소년 보호책임자 및 고충처리인 : 안대성