저희 팀은 2026학년도 수능 수학 시험지가 공식 공개되는 즉시, 주요 대규모 언어모델(LLMs)에게 동일한 시험지를 풀이하도록 진행하였습니다. 모든 추론 및 응답 생성은 시험지 공개 후 2시간 이내에 완료되었으며, 이로 인해 어떤 모델도 해당 문제를 사전에 학습했을 가능성은 매우 낮다고 판단됩니다.
본 리더보드는 이러한 평가 절차를 통해 수집된 결과를 기반으로, 각 모델의 실제 문제 해결 능력과 언어·모달리티 조건에 따른 성능 차이를 체계적으로 평가하였습니다.
실험 구성
문항 구성
- 총 문항 수: 46문항
- 공통 과목: 22문항
- 수학Ⅰ: 11문항 (예상)
- 수학Ⅱ: 11문항 (예상)
- 선택 과목: 8문항
- 확률과 통계, 미적분, 기하 중 택 1
문항 유형
-
① 객관식 15문항 (1–15번)
- 2점: 2문항
- 3점: 6문항
- 4점: 7문항
-
② 단답형 7문항 (16–22번)
- 전부 4점 문항
- (일부는 연속 4점 문항 블록 구성, 총 8점)
-
① 객관식 6문항 (23–28번)
- 2점: 1문항 (23번)
- 3점: 4문항 (24–27번)
- 4점: 1문항 (28번)
-
② 단답형 2문항 (29–30번)
- 모두 4점 문항
Performance 설명
수학 영역 점수 구성
| 구분 | 점수 | 비고 |
|---|---|---|
| 공통과목 | 74점 | 수학 I, 수학 II |
| 선택과목 | 26점 | 확률과 통계, 미적분, 기하 중 1개 선택 |
| 합계 | 152점 | 공통과목(74점) + 선택과목(26점) = 152점 |
Performance 계산: 각 모델이 수능 수학 문제를 풀었을 때, 152점 만점 중 몇 점을 맞췄는지를 표준화하여 100점 만점으로 환산하여 표시합니다.
Performance = (실제 점수 / 152) × 100
각 모델의 입력 모달리티 및 언어별 최고 성능을 비교합니다.
Model Performance Chart
Model Performance Table
Latency & Performance
Compare response time (Latency) and performance for each model. The bottom bars show response time (minutes), and the top lines show normalized scores. This chart is only available for all problem categories (ALL).
텍스트-only 모델들은 문자 기반(Text-only) 모달리티에서만 평가되었습니다.
✓ 평가 조건
입력: prob_desc (Markdown + LaTeX로 완전 재작성된 문제 텍스트)
- Text-only + Korean Prompt
- Text-only + English Prompt
- Image-only
- Text + Figure
(이미지 입력 불가능한 모델은 해당 4개 조건에서 제외)
✓ 특징
- 도형·그래프·기하 구조 등 모든 시각 정보가 제거됨
- 순수 텍스트 기반 수학 추론 능력만 평가
✓ 입력(Input) 구성
3가지 입력 모달리티
-
Text-only
- 문제 텍스트(prob_desc)만 제공
- 모든 모델 공통 지원
-
Image-only
- 문제 전체를 이미지(Base64)로 제공
- OCR + 시각 추론 필요
- 텍스트-only 모델은 제외
-
Text + Figure
- 텍스트(prob_desc) + 도형 이미지(prob_fig_img_path)
- 실제 시험 상황과 유사한 혼합 입력
- 텍스트-only 모델 제외
2가지 지시문(Instruction) 언어
- 한국어(Korean)
- 영어(English)
✓ 출력(Output) 규칙
모델은 반드시 마지막 줄에 한 줄만 다음 형식으로 정답을 출력해야 합니다:
예시:
유형별 제약:
- 객관식(MCQ): 1–5 범위 정수
- 단답형: 0–999 범위 정수(선행 0 금지)
추가 규칙:
- \boxed{} 이후 어떤 텍스트도 금지
- 풀이 과정은 자유롭게 출력 가능
- 파이프라인에서 마지막 \boxed{} 만 파싱하여 채점
✓ 로깅(Log) 정보
문제별로 다음이 기록되었습니다:
- 전체 모델 응답 원문
- 최종 파싱된 정답
- 응답 소요 시간(latency)
- 입력/출력/총 토큰 수
- API 비용 계산 정보
- 오류 타입 및 재시도 횟수
✓ 1) 정답 기반 채점 (Score / Normalized Score)
- 문제 배점: 2점 / 3점 / 4점
- 총점: 152점 (Common 74 + Probability 26 + Calculus 26 + Geometry 26)
정규화 점수:
✓ 2) 시간 기반 평가 (Latency)
- 문제당 응답 시간(밀리초 단위) 기록
- 전체 46문항 기준 총 소요 시간 측정
- 152분(time budget) 내 해결 여부도 분석
✓ 3) 비용 기반 평가 (Cost)
OpenRouter 가격 기반:
- 모델 간 비용 차이가 매우 큼
- 예: gpt-oss-20B = $0.01 vs Grok 4 = $11.48
✓ 4) 효율성(Efficiency) 평가
성능–시간–비용의 종합 평가 지표:
① 시간 효율
② 비용 효율
③ 종합 효율
✓ 5) 문제 특성·조건별 분석
다양한 해석 축에서 추가 분석을 수행했습니다:
- 영역별: Math I / Math II / Probability / Calculus / Geometry
- 난이도별: 2점 / 3점 / 4점
- 입력 모달리티별: Text / Image / Text+Figure
- 언어별: Korean / English
- GPT-5 reasoning_effort × text_verbosity 변화 영향