"클로드·큐원 넘었다?"…LG '엑사원 4.0', '진짜 실력' 따져보니

챗GPT로 생성한 'LG AI 연구원이 개발한 '엑사원 4.0' 모델이 타 경쟁사들이 내놓은 모델들보다 앞서나가는 이미지'에 대한 이미지.

LG가 국내 최초로 생성형과 추론형 인공지능(AI)을 결합한 하이브리드 모델을 선보이며 '세계 최고 성능'을 선언했다. 하지만 글로벌 AI 선도 기업들이 내놓은 대형 모델과 비교해 실제 경쟁력이 있는지는 따져봐야 한다는 평가가 나온다.

20일 관련 업계에 따르면, LG AI연구원은 지난 15일 '엑사원 4.0'을 공개했다. 엑사원 4.0은 방대한 정보를 학습해 질문에 답하는 대규모 언어 모델(LLM)과 복잡한 상황을 논리적으로 분석하는 추론형 AI를 결합한 하이브리드 구조다. 320억개 매개변수를 가진 '전문가 모델'과 12억개 '경량 장치탑재형(온디바이스) 모델'로 구성되며, 모델 가중치를 오픈소스로 공개한 것이 특징이다.

현재까지 하이브리드 AI 모델을 공식 발표한 기업은 전 세계적으로도 손에 꼽힌다. 미국의 앤트로픽은 '클로드', 중국 알리바바는 '큐원'을 출시했다. 오픈AI는 'GPT-5'를 하이브리드 구조로 개발 중이나 아직 공개되지 않았다.

LG는 엑사원 4.0이 글로벌 AI 모델과 비교해 벤치마크 등 성능 면에서 우수한 성적을 보인다고 강조했다. 실제로 의사·약사·감정평가사 등 6개 전문가 자격증 필기시험을 통과했다. 지식 이해도와 문제 해결력을 평가하는 AI 평가 벤치마크인 MMLU-Redux(92.3점), GPQA-Diamond(75.4점) 등에서 높은 점수를 기록했다.

하지만 전문가들은 자격시험 합격이나 벤치마크 점수만으로 실전 성능을 판단하기엔 한계가 있다고 지적한다. 한 AI 전문가는 "자격시험은 암기형 문항 중심이고, 실제 업무에 필요한 창의적 문제 해결력과 상황 판단 능력을 반영하지 못한다"고 설명했다.

벤치마크 자체에 대한 회의론도 커지고 있다. 파이낸셜타임스(FT)와 테크크런치 등 외신은 "AI 평가 수단이 빠르게 발전하는 모델을 따라가지 못하고 있다"고 지적했다. 제시 도지 앨런 AI 연구소 과학자는 테크크런치와의 인터뷰에서 "기존 벤치마크는 대부분 연구용으로 개발됐고, 실제 사용 환경과는 괴리가 크다"고 지적했다.

코히어의 에이단 고메스 CEO도 "공개 벤치마크의 유효 기간은 몇 달밖에 되지 않는다"며 "지금은 사용자 쿼리 기반의 평가가 더 중요하다"고 말했다.

엑사원 4.0의 글로벌 확장성은 여전히 과제로 꼽힌다. 영어 등 다국어 처리 역량, 추론 모드에서의 응답 속도, 클라우드 인프라 범위, 마케팅 자원 등은 미국과 중국의 주요 AI 기업들과 비교해 열위에 있다는 평가가 나온다.

LG 관계자 역시 "엑사원은 아직 완성형 모델은 아니며, 지속적인 고도화가 필요하다"고 밝혔다. 한 AI 관계자는 "그럼에도 LG가 아시아 기업 가운데 처음으로 하이브리드 AI 모델을 오픈소스로 공개하고, 상용화 단계까지 개발을 진행한 것은 일정한 의미가 있다"고 평가했다.