메트로人 머니 산업 IT·과학 정치&정책 생활경제 사회 에듀&JOB 기획연재 오피니언 라이프 AI영상 플러스
글로벌 메트로신문
로그인
회원가입

    머니

  • 증권
  • 은행
  • 보험
  • 카드
  • 부동산
  • 경제일반

    산업

  • 재계
  • 자동차
  • 전기전자
  • 물류항공
  • 산업일반

    IT·과학

  • 인터넷
  • 게임
  • 방송통신
  • IT·과학일반

    사회

  • 지방행정
  • 국제
  • 사회일반

    플러스

  • 한줄뉴스
  • 포토
  • 영상
  • 운세/사주
IT/과학>IT/인터넷

SKT, 자체 거대언어모델 기반 멀티모달·범용 문서 해석 기술 공개

서버실의 모습. /Pixabay 무료 이미지

SK텔레콤이 자사의 대규모언어모델(LLM)인 'A.X(에이닷 엑스)'를 기반으로 한 시각-언어 모델과 범용 문서 해석 기술을 29일 공개했다. 오픈소스 커뮤니티 허깅페이스(Hugging Face)를 통해 공개된 모델은 'A.X 인코더'와 'A.X 4.0 VL 라이트' 두 종류로, 학술·상업적 활용이 모두 가능하다.

 

이번 발표는 A.X 4.0 모델 시리즈(표준·경량), A.X 3.1 프롬 스크래치 모델 2종에 이어, 산업 활용도를 높이기 위한 추가 기술을 공개한 것이다. SKT는 향후 A.X 4.0 추론형 모델 등을 지속 개발해 LLM 활용성과 성능을 강화할 계획이다.

 

A.X 인코더는 긴 문서를 빠르고 효율적으로 처리할 수 있도록 설계된 자연어처리용 인코더로, 1억4900만개의 파라미터로 작동한다. KLUE 기준 평균 85.47점을 기록해 'RoBERTa-base'(80.19점) 대비 높은 성능을 보였다. 최대 16,384 토큰을 처리할 수 있으며, 기존 모델 대비 추론 속도는 3배, 학습 속도는 2배 이상 향상된 것으로 나타났다.

 

A.X 4.0 VL 라이트는 70억개의 파라미터를 탑재한 시각-언어 모델로, 표와 그래프, 제조 도면 등 복합적 시각 데이터를 이해할 수 있도록 훈련됐다. 한국어 시각 벤치마크에서 평균 79.4점을 기록했으며, Qwen2.5-VL32B 모델보다 적은 파라미터에도 더 높은 성능을 보였다. 특히 K-Viscuit와 KoBizDoc 같은 한국어 멀티모달 평가에서도 각각 80.2점, 89.8점을 기록하며 국내 모델 중 상위권 성능을 입증했다.

 

텍스트 토큰 효율도 개선됐다. 동일한 입력 조건에서 Qwen2.5-VL32B 대비 약 41% 적은 텍스트 토큰을 사용해, 기업이 AI를 도입할 때 비용 효율을 높일 수 있을 것으로 기대된다.

 

SK텔레콤은 자체 기술력 강화와 파트너십 확대를 통해 글로벌 경쟁력을 높여가겠다는 방침이다.

 

트위터 페이스북 카카오스토리 Copyright ⓒ 메트로신문 & metroseoul.co.kr