2026학년도 한국 대학수학능력시험 LLM 평가 리더보드

2026 Korean CSAT Leaderboard

ISoft Lab, Chungnam National University

저희 팀은 2025학년도 수능 수학 시험지가 공식 공개되는 즉시, 주요 대규모 언어모델(LLMs)에게 동일한 시험지를 풀이하도록 진행하였습니다. 모든 추론 및 응답 생성은 시험지 공개 후 2시간 이내에 완료되었으며, 이로 인해 어떤 모델도 해당 문제를 사전에 학습했을 가능성은 매우 낮다고 판단됩니다.

본 리더보드는 이러한 평가 절차를 통해 수집된 결과를 기반으로, 각 모델의 실제 문제 해결 능력과 언어·모달리티 조건에 따른 성능 차이를 체계적으로 평가하였습니다.

실험 구성

문항 구성

  • 총 문항 수: 30문항
  • 공통 과목: 22문항
    • 수학Ⅰ: 11문항 (예상)
    • 수학Ⅱ: 11문항 (예상)
  • 선택 과목: 8문항
    • 확률과 통계, 미적분, 기하 중 택 1

문항 유형

  • 객관식 문항: 15문항 (1~15번)
    • 2점: 2문항
    • 3점: 6문항
    • 4점: 7문항
  • 단답형 문항: 7문항 (16~22번)
    • 4점 2문항으로 구성 (8점)

Performance 설명

수학 영역 점수 구성

구분 점수 비고
공통과목 74점 수학 I, 수학 II
선택과목 26점 확률과 통계, 미적분, 기하 중 1개 선택
합계 152점 공통과목(74점) + 선택과목(26점) = 152점

Performance 계산: 각 모델이 수능 수학 문제를 풀었을 때, 152점 만점 중 몇 점을 맞췄는지를 표준화하여 100점 만점으로 환산하여 표시합니다.

Performance = (실제 점수 / 152) × 100

Baseline Performance

Prompt Language: Korean | Input Modality: Text

모델의 프롬프트 언어(Korean) 및 입력 모달리티(Text)에 따른 성능을 보여줍니다.

데이터를 로드하는 중...

Model Performance Chart

Model Performance Table

데이터를 로드하는 중...
데이터를 로드하는 중...

GPT-5 Reasoning Analysis

데이터를 로드하는 중...