코드 이용한 LLM 성능 향상 연구

10월 09, 2025

대규모 언어 모델(LLM)은 문서의 맥락을 이해하고 그 내용에 대한 논리적인 답변을 제공하는 데 뛰어난 능력을 보입니다. 그러나 이러한 모델은 간단한 수학 문제조차 올바르게 해결하는 데 어려움을 겪는 경우가 많습니다. MIT 연구팀이 개발한 CodeSteer는 이러한 LLM이 텍스트와 코드 생성을 효과적으로 전환하여 올바른 답변을 도출할 수 있도록 돕는 스마트 보조 도구입니다.

LLM의 코드를 통한 문제 해결 능력 향상

MIT 연구팀은 대규모 언어 모델이 기본적으로 텍스트로 된 데이터를 처리하도록 훈련되어 있어, 수학적 문제를 해결하기 위해 코드 대신 텍스트 생성에 더 의존한다는 사실에 주목했습니다. 예를 들어, 두 숫자 9.11과 9.9 중 어느 것이 더 큰지 묻는 질문에 LLM이 텍스트로 답변하는 경우 종종 잘못된 결과를 제공하지만, 코드로 처리할 경우 Python 스크립트를 생성하여 쉽게 문제를 해결할 수 있습니다. 이러한 문제를 해결하기 위해 연구팀은 더 큰 LLM을 보완하는 작은 LLM인 CodeSteer를 개발하였습니다. CodeSteer는 LLM이 텍스트와 코드 생성을 모두 사용할 수 있도록 방향을 제시하여 올바른 답변을 찾도록 돕는 역할을 합니다. 코드의 복잡성을 평가하고, 모델이 더 나은 답변을 생성하기 위해 필요한 경우 추가 계산을 통해 확인하도록 유도합니다. 이렇게 하여 LLM이 문제를 해결하는 데 있어서 더 높은 정확성과 효율성을 발휘할 수 있게 됩니다. 연구 결과, CodeSteer는 LLM의 상징적 작업에 대한 정확도를 30% 이상 높여주며, 덜 정교한 모델도 CodeSteer의 도움을 통해 더 발전된 모델보다 우수한 성능을 발휘할 수 있게 합니다. 이를 통해 복잡한 작업에서 LLM의 문제 해결 능력을 대폭 향상시키는 데 기여할 수 있습니다.

CodeSteer의 작동 원리와 효과

CodeSteer는 LLM의 입력 질의를 검토한 후, 이 문제를 해결하기 위해 텍스트나 코드 중 어느 쪽이 더 적합한지 판단합니다. 그런 다음, LLM에 텍스트적 접근 방식 또는 코딩 메서드를 사용하도록 유도하는 프롬프트를 생성하여 통합적으로 작업합니다. LLM은 이러한 지침을 따라 문제를 해결하고 결과를 CodeSteer에 다시 전달합니다. CodeSteer는 이 결과를 검토하여 만약 정답이 올바르지 않더라도 올바른 해답을 얻기 위해 추가적인 프롬프트를 생성해 계속해서 모델을 안내합니다. 예를 들어, LLM이 효율적이지 않은 짧은 코드로 답하려고 할 경우, CodeSteer는 이를 피할 수 있도록 설계되었습니다. 코드의 복잡성을 평가하는 기호 검사기가 코드가 너무 단순하거나 비효율적일 경우 이를 CodeSteer에게 신호로 전달합니다. 또한, Self-answer checker를 도입하여 LLM이 코드를 생성할 때 스스로 정답을 검증하도록 하고, 이를 통해 원하는 결과를 더욱 신뢰할 수 있는 것입니다. 연구팀은 이러한 방식으로 CodeSteer를 통해 LLM이 복잡한 문제를 해결하는 데 필요한 정확성을 보장할 수 있도록 한 것입니다. 실제 실험에서 CodeSteer는 시행한 아홉 가지 기준 방법을 모두 초과하는 성과를 거둡니다. 그 결과는 LLM의 평균 정확도를 53.3%에서 86.4%로 상승시키며, 다양한 LLM에도 동일한 성능을 유지하게 됩니다.

복잡한 작업 처리에서의 새로운 가능성

MIT 연구팀은 LLM의 성능 향상을 위해 모든 훈련 데이터를 기호 기반 작업에 최적화할 수 있는 적절한 데이터셋이 필요하다는 것을 인식했습니다. 기존 데이터셋들이 텍스트와 코드 중 어느 방식이 더 적합한지를 명확히 제시하지 않는 경우가 많기 때문입니다. 따라서 연구진은 37개의 복잡한 기호 작업으로 구성된 데이터셋인 SymBench를 구축하여 LLM을 더욱 효과적으로 평가하고 개선할 수 있는 기반을 마련하였습니다. CodeSteer가 다양한 복잡한 영역에서 높은 정확성을 달성할 수 있도록 한 점은 주목할 만합니다. 이는 LLM이 복잡한 계획과 추론에서 성공적으로 문제를 해결할 수 있도록 하는 데 크게 기여합니다. 그들의 연구는 LLM의 진화 중에 중요한 진전을 보여주며, 다양한 복잡한 문제에 접근할 수 있는 새로운 가능성을 열어줍니다. 향후 연구팀은 CodeSteer의 프로세스를 더욱 간소화하여 반복적인 검색 과정을 신속하게 진행할 방법을 모색하고 있으며, LLM 스스로 텍스트적 추론과 코드 생성을 전환할 수 있는 통합 모델을 효율적으로 훈련할 방안을 고민하고 있습니다. 이러한 연구는 AI 기술의 발전에 있어 중요한 연결고리가 될 것입니다.
결론적으로, MIT의 연구팀이 개발한 CodeSteer는 LLM의 문제 해결 능력을 한층 더 강화시키는 혁신적인 방법입니다. 텍스트와 코드 간의 효과적인 전환을 통해, LLM은 더 복잡한 작업에서도 높은 정확성을 유지하며 강력한 성과를 보일 수 있습니다. 앞으로의 연구에서 CodeSteer의 발전이 어떠한 새로운 가능성을 제시할지 기대가 됩니다.

이 블로그 검색

인공지능뉴스