컨텍스트 길이 늘수록 LLM 성능 저하…'문맥 설계'가 핵심

메트로신문 김현정 기자 ㅣ2025-07-21 16:31:10

입력 길이가 증가할수록 LLM의 성능이 불안정해진다는 연구 결과가 공개됐다./ 챗GPT로 생성한 이미지

'긴 문맥을 잘 이해하는 것'은 대형 언어 모델(LLM)의 핵심 능력 중 하나로 꼽힌다. 빅테크 기업들은 LLM이 수백만 개의 토큰(단어 또는 문장 기본 단위)에 달하는 컨텍스트 창을 처리하는 능력을 발전시켜왔다. 긴 컨텍스트는 LLM이 한 번의 호출로 더 많은 정보를 처리하고 방대한 양의 출력을 생성할 수 있게 해주기 때문이다. 하지만 이러한 기술적 진보가 실제 성능으로 이어지지 않는다는 분석이 나왔다.

21일 오픈소스 벡터 DB(데이터베이스) 개발사 크로마가 공개한 기술 보고서에 따르면 입력 길이가 증가할수록 LLM의 성능이 하락하는 것으로 나타났다.

크로마 연구진은 보고서에서 GPT-4.1, 클로드 4, 제미나이 2.5 등 18개 주요 LLM 모델에서 컨텍스트 길이가 늘어날수록 모델 성능이 일정하지 않고 점차 저하되는 '문맥 부패(Context Rot)' 현상이 발견됐다고 밝혔다.

연구진은 LLM 모델이 긴 문서(건초 더미) 내에서 정답 문장(바늘)을 찾는 능력을 테스트하는 NIAH(건초 더미 속 바늘 찾기, Needle in a Haystack) 벤치마크를 확장해 실험을 설계했다. 기존에는 단순한 단어 일치 테스트에 그쳤지만, 이번 연구에서는 의미 기반 검색, 혼동 요소 삽입, 문서 구조 변경 등 다양한 조건을 추가해 성능을 측정했다.

실험 결과, 입력 길이가 늘어날수록 의미 기반 질의응답 성능이 크게 떨어졌다. 또 혼동 요소가 많을수록 모델이 오답을 낼 가능성도 높아졌다.

예를 들어 '대학 동기로부터 받은 가장 좋은 글쓰기 조언이 무엇이었냐'는 질문에 대해, LLM은 해당 질문에 앞서 제시된 문맥 가운데 방해 정보로 삽입된 '교수가 준 팁'을 정답으로 선택했다. 모델은 단어가 비슷하면 의미 유사성의 함정에 빠져 혼란을 일으켰고, 문맥상 뒤에 나오는 방해 정보에 더 잘 현혹됐다. 또 '교수'와 같은 권위적인 표현에 쉽게 속는 모습도 관찰됐다.

문서의 구조에도 영향을 받았다. 논리적 흐름이 유지되는 문서보다, 문장이 무작위로 섞인 문서에서 모델의 정답률이 더 높게 나타났다. 이는 LLM이 문맥의 구조적 연속성보다는 단편적 단서에 의존하는 경향이 강하다는 것을 보여준다.

연구진은 "중요한 것은 컨텍스트의 길이가 아니라 어떤 정보가 어디에, 어떻게 배치되었는지"라며 "신뢰할 수 있는 성능을 얻기 위해서는 효과적인 '문맥 설계(컨텍스트 엔지니어링)'가 필수적이다"고 강조했다.

메트로人

머니

산업

IT·과학

정치＆정책

생활경제

사회

에듀＆JOB

기획연재

오피니언

라이프

AI영상

플러스

독자서비스

포럼＆컨퍼런스

컨텍스트 길이 늘수록 LLM 성능 저하…'문맥 설계'가 핵심

기사이력코드