인공지능 (PG).사진=연합뉴스

국가대표 인공지능(AI, Artificial Intelligence) 개발에 도전하는 한국 팀들의 기존 대형언어모델(LLM, Large Language Model) 모델들이 수능 수학 및 논술 문제 풀이에서 해외 모델에 비해 현저히 낮은 성능을 보이는 것으로 15일 분석됐다.

이는 국내 AI 기술의 핵심 역량인 추론 능력에서 심각한 격차가 존재함을 여실히 드러냈다.

김종락 서강대학교(서강대) 수학과 교수 연구팀은 이날 국내 국가대표 AI 도전 5개 팀의 주요 LLM과 지피티(GPT, Generative Pre-trained Transformer) 등 해외 5개 모델에 수능 수학 20문제, 논술 30문제를 풀게 한 결과 이같이 나타났다고 밝혔다.

해당 연구팀은 국내 모델들이 단순 추론으로 문제를 대부분 해결하지 못해 파이썬(Python)을 도구로 사용하도록 설계했음에도 불구하고 저조한 결과가 나왔다고 설명했다.

수능·논술 문제풀이 국내AI·해외AI 모델 성능 비교

국가대표 인공지능(AI)에 도전하는 한국 팀들의 기존 대형언어모델(LLM) 모델들이 수학 수능 및 논술 문제 풀이에서 해외 모델에 한참 못 미치는 성능을 내는 것으로 분석됐다.

김종락 서강대 수학과 교수 연구팀은 국내 국가대표 AI 도전 5개 팀의 주요 LLM과 챗GPT 등 해외 5개 모델에게 수능 수학 20문제, 논술 30문제를 풀게 한 결과 이같이 나타났다고 15일 밝혔다.사진=연합뉴스


연구팀은 수능 수학 문제로 공통과목, 확률과 통계, 미적분, 기하 영역에서 가장 어려운 문항 5개씩을 선별하여 20문제를 구성했다.

논술 문제는 국내 10개 대학교(대학)의 기출 문제와 인도 대학교(대학) 입시 문제 10개, 일본 도쿄대 공과대학교(대학) 대학원 입시 수학 문제 10개 등 30문제를 설정하여 총 50개 문제를 10개 모델에 풀도록 했다.

테스트에는 업스테이지의 '솔라 프로-2', 엘지(LG) 에이아이(AI)연구원의 '엑사원 4.0.1', 네이버의 '에이치씨엑스-007(HCX-007)', 에스케이(SK)텔레콤(017670)의 '에이점 엑스(A.X) 4.0(72B)', 엔씨소프트 경량모델 '라마 바르코 8B 인스트럭트' 등 국내 모델들이 활용됐다.

해외 모델로는 지피티(GPT)-5.1, 제미니(Gemini) 3 프로 프리뷰, 클라우드(Claude) 오푸스 4.5, 그록(Grok) 4.1 패스트, 딥시크(DeepSeek) 브이(V)3.2 등이 사용됐다.

테스트 결과, 해외 모델들은 76점에서 92점 사이의 높은 점수를 기록했으나, 한국 모델은 '솔라 프로-2'만이 58점을 받았을 뿐 나머지 모델들은 20점대의 낮은 점수를 받았다.

특히 '라마 바르코 8B 인스트럭트'는 2점이라는 가장 낮은 점수를 받으며 국내 AI의 수학 문제 해결 능력의 현주소를 드러냈다.

이러한 결과는 국내 AI 모델들이 기존 공개 버전임에도 불구하고 해외 프런티어 모델과 상당한 기술적 격차가 있음을 시사한다.

엔트로피매스 10문제 풀이 결과.자료=김종락 교수팀 제공/연합뉴스


더 나아가 연구팀은 대학교(대학) 수준부터 교수급 논문 연구 수준까지 난이도를 세분화한 자체 문제 세트 '엔트로피매스'(EntropyMath) 100문제 중 10문제를 구성하여 10개 모델에 풀게 했다.

이 테스트에서도 해외 모델들은 82.8점에서 90점을 기록한 반면, 국내 모델들은 7.1점에서 53.3점 사이의 저조한 성적을 거두는 데 그쳤다.

세 차례 문제 풀이를 시도하여 정답을 맞히는 방식으로 테스트했을 때, 그록(Grok)은 만점, 나머지 해외 모델은 90점을 기록했으나, 한국 모델은 '솔라 프로-2'가 70점, '엑사원'이 60점, '에이치씨엑스-007(HCX-007)'이 40점, '에이점 엑스(A.X) 4.0'이 30점, '라마 바르코 8B 인스트럭트'는 20점을 기록했다.

김 교수는 "주위에서 왜 수능 문제에 대한 국내 5개 소버린 에이아이(AI) 모델 평가가 없는지 문의가 많아 팀원들과 테스트를 진행했다"며 "국내 모델의 수준이 해외 프런티어 모델보다 많이 뒤처짐을 알 수 있었다"고 평가했다.

연구팀은 이번 테스트에 사용된 국내 5개 모델이 기존 공개 버전임을 감안하여, 각 팀의 국가대표 에이아이(AI) 버전이 새로 공개되면 자체 개발 문제로 다시 성능을 테스트하겠다고 밝혔다.

김 교수는 또한 "엔트로피매스 데이터세트를 기반으로 수학 리더보드를 개설했으며 이를 국제적인 수준으로 키울 것"이라며 "자체 개발 문제 생성 알고리즘과 파이프라인을 개선해 수학뿐 아니라 과학, 제조, 문화 도메인 데이터세트를 생성하여 도메인 특화 모델 성능 개선에 기여할 것"이라고 강조했다.

이번 실험은 서강대학교(서강대) 수리과학 및 데이터사이언스 연구소(IMDS, Institute of Mathematical Sciences and Data Science)와 딥파운틴에서 공동 지원했다.