'긴 문맥을 잘 이해하는 것'은 대형 언어 모델(LLM)의 핵심 능력 중 하나로 꼽힌다. 빅테크 기업들은 LLM이 수백만 개의 토큰(단어 또는 문장 기본 단위)에 달하는 컨텍스트 창을 처리하는 능력을 발전시켜왔다. 긴 컨텍스트는 LLM이 한 번의 호출로 더 많은 정보를 처리하고 방대한 양의 출력을 생성할 수 있게 해주기 때문이다. 하지만 이러한 기술적 진보가 실제 성능으로 이어지지 않는다는 분석이 나왔다.
21일 오픈소스 벡터 DB(데이터베이스) 개발사 크로마가 공개한 기술 보고서에 따르면 입력 길이가 증가할수록 LLM의 성능이 하락하는 것으로 나타났다.
크로마 연구진은 보고서에서 GPT-4.1, 클로드 4, 제미나이 2.5 등 18개 주요 LLM 모델에서 컨텍스트 길이가 늘어날수록 모델 성능이 일정하지 않고 점차 저하되는 '문맥 부패(Context Rot)' 현상이 발견됐다고 밝혔다.
연구진은 LLM 모델이 긴 문서(건초 더미) 내에서 정답 문장(바늘)을 찾는 능력을 테스트하는 NIAH(건초 더미 속 바늘 찾기, Needle in a Haystack) 벤치마크를 확장해 실험을 설계했다. 기존에는 단순한 단어 일치 테스트에 그쳤지만, 이번 연구에서는 의미 기반 검색, 혼동 요소 삽입, 문서 구조 변경 등 다양한 조건을 추가해 성능을 측정했다.
실험 결과, 입력 길이가 늘어날수록 의미 기반 질의응답 성능이 크게 떨어졌다. 또 혼동 요소가 많을수록 모델이 오답을 낼 가능성도 높아졌다.
예를 들어 '대학 동기로부터 받은 가장 좋은 글쓰기 조언이 무엇이었냐'는 질문에 대해, LLM은 해당 질문에 앞서 제시된 문맥 가운데 방해 정보로 삽입된 '교수가 준 팁'을 정답으로 선택했다. 모델은 단어가 비슷하면 의미 유사성의 함정에 빠져 혼란을 일으켰고, 문맥상 뒤에 나오는 방해 정보에 더 잘 현혹됐다. 또 '교수'와 같은 권위적인 표현에 쉽게 속는 모습도 관찰됐다.
문서의 구조에도 영향을 받았다. 논리적 흐름이 유지되는 문서보다, 문장이 무작위로 섞인 문서에서 모델의 정답률이 더 높게 나타났다. 이는 LLM이 문맥의 구조적 연속성보다는 단편적 단서에 의존하는 경향이 강하다는 것을 보여준다.
연구진은 "중요한 것은 컨텍스트의 길이가 아니라 어떤 정보가 어디에, 어떻게 배치되었는지"라며 "신뢰할 수 있는 성능을 얻기 위해서는 효과적인 '문맥 설계(컨텍스트 엔지니어링)'가 필수적이다"고 강조했다.
Copyright ⓒ Metro. All rights reserved. (주)메트로미디어의 모든 기사 또는 컨텐츠에 대한 무단 전재ㆍ복사ㆍ배포를 금합니다.
주식회사 메트로미디어 · 서울특별시 종로구 자하문로17길 18 ㅣ Tel : 02. 721. 9800 / Fax : 02. 730. 2882
문의메일 : webmaster@metroseoul.co.kr ㅣ 대표이사 · 발행인 · 편집인 : 이장규 ㅣ 신문사업 등록번호 : 서울, 가00206
인터넷신문 등록번호 : 서울, 아02546 ㅣ 등록일 : 2013년 3월 20일 ㅣ 제호 : 메트로신문
사업자등록번호 : 242-88-00131 ISSN : 2635-9219 ㅣ 청소년 보호책임자 및 고충처리인 : 안대성