2026 CSAT Leaderboard - Comprehensive Assessment of Semantic Tasks

저희 팀은 2026학년도 수능 수학 시험지가 공식 공개되는 즉시, 주요 대규모 언어모델(LLMs)에게 동일한 시험지를 풀이하도록 진행하였습니다. 모든 추론 및 응답 생성은 시험지 공개 후 2시간 이내에 완료되었으며, 이로 인해 어떤 모델도 해당 문제를 사전에 학습했을 가능성은 매우 낮다고 판단됩니다.

본 리더보드는 이러한 평가 절차를 통해 수집된 결과를 기반으로, 각 모델의 실제 문제 해결 능력과 언어·모달리티 조건에 따른 성능 차이를 체계적으로 평가하였습니다.

실험 구성

문항 구성

총 문항 수: 46문항
공통 과목: 22문항
- 수학Ⅰ: 11문항 (예상)
- 수학Ⅱ: 11문항 (예상)
선택 과목: 8문항
- 확률과 통계, 미적분, 기하 중 택 1

문항 유형

1. 공통과목 (1–22번)

① 객관식 15문항 (1–15번)
- 2점: 2문항
- 3점: 6문항
- 4점: 7문항
② 단답형 7문항 (16–22번)
- 전부 4점 문항
- (일부는 연속 4점 문항 블록 구성, 총 8점)

2. 선택과목 (23–30번)

① 객관식 6문항 (23–28번)
- 2점: 1문항 (23번)
- 3점: 4문항 (24–27번)
- 4점: 1문항 (28번)
② 단답형 2문항 (29–30번)
- 모두 4점 문항

Performance 설명

수학 영역 점수 구성

구분	점수	비고
공통과목	74점	수학 I, 수학 II
선택과목	26점	확률과 통계, 미적분, 기하 중 1개 선택
합계	152점	공통과목(74점) + 선택과목(26점) = 152점

Performance 계산: 각 모델이 수능 수학 문제를 풀었을 때, 152점 만점 중 몇 점을 맞췄는지를 표준화하여 100점 만점으로 환산하여 표시합니다.

Performance = (실제 점수 / 152) × 100

각 모델의 입력 모달리티 및 언어별 최고 성능을 비교합니다.

데이터를 로드하는 중...

Model Performance Chart

Prompt Language 프롬프트에 사용된 언어를 선택합니다

Input Modality

입력 데이터의 형태를 선택합니다:
• Text: LaTeX 형식의 텍스트로 입력
• Image: 문제 이미지를 입력
• Text+Figure: LaTeX 텍스트와 도형/그래프 이미지를 함께 입력

Problem Category

문제 카테고리를 선택합니다:
• ALL: 전체 문제 (46문항, 152점)
• 기하: 기하 영역 (8문항, 26점)
• 미적분: 미적분 영역 (8문항, 26점)
• 확률과통계: 확률과 통계 영역 (8문항, 26점)
• 공통과목: 수학I + 수학II (22문항, 74점)

46 questions, 152 points

Model Performance Table

데이터를 로드하는 중...

Latency & Performance

Compare response time (Latency) and performance for each model. The bottom bars show response time (minutes), and the top lines show normalized scores. This chart is only available for all problem categories (ALL).

데이터를 로드하는 중...

GPT-5 Reasoning Analysis

데이터를 로드하는 중...

텍스트-only 모델들은 문자 기반(Text-only) 모달리티에서만 평가되었습니다.

✓ 평가 조건

입력: prob_desc (Markdown + LaTeX로 완전 재작성된 문제 텍스트)

제공 언어:

Text-only + Korean Prompt
Text-only + English Prompt

제외 조건:

Image-only
Text + Figure

(이미지 입력 불가능한 모델은 해당 4개 조건에서 제외)

✓ 특징

도형·그래프·기하 구조 등 모든 시각 정보가 제거됨
순수 텍스트 기반 수학 추론 능력만 평가

✓ 입력(Input) 구성

3가지 입력 모달리티

Text-only
- 문제 텍스트(prob_desc)만 제공
- 모든 모델 공통 지원
Image-only
- 문제 전체를 이미지(Base64)로 제공
- OCR + 시각 추론 필요
- 텍스트-only 모델은 제외
Text + Figure
- 텍스트(prob_desc) + 도형 이미지(prob_fig_img_path)
- 실제 시험 상황과 유사한 혼합 입력
- 텍스트-only 모델 제외

2가지 지시문(Instruction) 언어

한국어(Korean)
영어(English)

✓ 출력(Output) 규칙

모델은 반드시 마지막 줄에 한 줄만 다음 형식으로 정답을 출력해야 합니다:

\boxed{정답}

예시:

\boxed{3} # 객관식

\boxed{256} # 단답형

유형별 제약:

객관식(MCQ): 1–5 범위 정수
단답형: 0–999 범위 정수(선행 0 금지)

추가 규칙:

\boxed{} 이후 어떤 텍스트도 금지
풀이 과정은 자유롭게 출력 가능
파이프라인에서 마지막 \boxed{} 만 파싱하여 채점

✓ 로깅(Log) 정보

문제별로 다음이 기록되었습니다:

전체 모델 응답 원문
최종 파싱된 정답
응답 소요 시간(latency)
입력/출력/총 토큰 수
API 비용 계산 정보
오류 타입 및 재시도 횟수

✓ 1) 정답 기반 채점 (Score / Normalized Score)

문제 배점: 2점 / 3점 / 4점
총점: 152점 (Common 74 + Probability 26 + Calculus 26 + Geometry 26)

정규화 점수:

Normalized Score = (score / 152) × 100

✓ 2) 시간 기반 평가 (Latency)

문제당 응답 시간(밀리초 단위) 기록
전체 46문항 기준 총 소요 시간 측정
152분(time budget) 내 해결 여부도 분석

✓ 3) 비용 기반 평가 (Cost)

OpenRouter 가격 기반:

Cost = (Input tokens × 단가) + (Output tokens × 단가)

모델 간 비용 차이가 매우 큼
예: gpt-oss-20B = $0.01 vs Grok 4 = $11.48

✓ 4) 효율성(Efficiency) 평가

성능–시간–비용의 종합 평가 지표:

① 시간 효율

Eff_t = score / latency (min)

② 비용 효율

Eff_c = score / cost

③ 종합 효율

Eff_t,c = score / (latency/152 + cost/1)

✓ 5) 문제 특성·조건별 분석

다양한 해석 축에서 추가 분석을 수행했습니다:

영역별: Math I / Math II / Probability / Calculus / Geometry
난이도별: 2점 / 3점 / 4점
입력 모달리티별: Text / Image / Text+Figure
언어별: Korean / English
GPT-5 reasoning_effort × text_verbosity 변화 영향

2026학년도 한국 대학수학능력시험 LLM 평가 리더보드

EVALUATING LARGE LANGUAGE MODELS ON THE 2026 KOREAN CSAT MATHEMATICS EXAM:

MEASURING MATHEMATICAL ABILITY

IN A ZERO–DATA-LEAKAGE SETTING

실험 구성

문항 구성

문항 유형

Performance 설명

수학 영역 점수 구성

모델 선정 기준

• Performance

• Accessibility

• Release time

• Diversity

Model Performance Chart

Model Performance Table

Latency & Performance

GPT-5 Reasoning Analysis

자주 묻는 질문 (FAQ)

Q: 입력이 텍스트만 가능한 모델들은 어떻게 평가했나요?

✓ 평가 조건

✓ 특징

Q: 모델의 입출력 형태는 어떻게되나요?

✓ 입력(Input) 구성

✓ 출력(Output) 규칙

✓ 로깅(Log) 정보

Q: 평가 기준 및 방법론은 무엇인가요?

✓ 1) 정답 기반 채점 (Score / Normalized Score)

✓ 2) 시간 기반 평가 (Latency)

✓ 3) 비용 기반 평가 (Cost)

✓ 4) 효율성(Efficiency) 평가

✓ 5) 문제 특성·조건별 분석

EVALUATING LARGE LANGUAGE MODELS ON THE 2026 KOREAN CSAT MATHEMATICS EXAM: MEASURING MATHEMATICAL ABILITY IN A ZERO–DATA-LEAKAGE SETTING

실험 구성

문항 구성

문항 유형

Performance 설명

수학 영역 점수 구성

모델 선정 기준

• Performance

• Accessibility

• Release time

• Diversity

Model Performance Chart

Model Performance Table

Latency & Performance

GPT-5 Reasoning Analysis

자주 묻는 질문 (FAQ)

Q: 입력이 텍스트만 가능한 모델들은 어떻게 평가했나요?

✓ 평가 조건

✓ 특징

Q: 모델의 입출력 형태는 어떻게되나요?

✓ 입력(Input) 구성

✓ 출력(Output) 규칙

✓ 로깅(Log) 정보

Q: 평가 기준 및 방법론은 무엇인가요?

✓ 1) 정답 기반 채점 (Score / Normalized Score)

✓ 2) 시간 기반 평가 (Latency)

✓ 3) 비용 기반 평가 (Cost)

✓ 4) 효율성(Efficiency) 평가

✓ 5) 문제 특성·조건별 분석

EVALUATING LARGE LANGUAGE MODELS ON THE 2026 KOREAN CSAT MATHEMATICS EXAM:

MEASURING MATHEMATICAL ABILITY

IN A ZERO–DATA-LEAKAGE SETTING