저희 팀은 2025학년도 수능 수학 시험지가 공식 공개되는 즉시, 주요 대규모 언어모델(LLMs)에게 동일한 시험지를 풀이하도록 진행하였습니다. 모든 추론 및 응답 생성은 시험지 공개 후 2시간 이내에 완료되었으며, 이로 인해 어떤 모델도 해당 문제를 사전에 학습했을 가능성은 매우 낮다고 판단됩니다.
본 리더보드는 이러한 평가 절차를 통해 수집된 결과를 기반으로, 각 모델의 실제 문제 해결 능력과 언어·모달리티 조건에 따른 성능 차이를 체계적으로 평가하였습니다.
실험 구성
문항 구성
- 총 문항 수: 30문항
- 공통 과목: 22문항
- 수학Ⅰ: 11문항 (예상)
- 수학Ⅱ: 11문항 (예상)
- 선택 과목: 8문항
- 확률과 통계, 미적분, 기하 중 택 1
문항 유형
- 객관식 문항: 15문항 (1~15번)
- 2점: 2문항
- 3점: 6문항
- 4점: 7문항
- 단답형 문항: 7문항 (16~22번)
- 4점 2문항으로 구성 (8점)
Performance 설명
수학 영역 점수 구성
| 구분 | 점수 | 비고 |
|---|---|---|
| 공통과목 | 74점 | 수학 I, 수학 II |
| 선택과목 | 26점 | 확률과 통계, 미적분, 기하 중 1개 선택 |
| 합계 | 152점 | 공통과목(74점) + 선택과목(26점) = 152점 |
Performance 계산: 각 모델이 수능 수학 문제를 풀었을 때, 152점 만점 중 몇 점을 맞췄는지를 표준화하여 100점 만점으로 환산하여 표시합니다.
Performance = (실제 점수 / 152) × 100
Baseline Performance
Prompt Language: Korean | Input Modality: Text
모델의 프롬프트 언어(Korean) 및 입력 모달리티(Text)에 따른 성능을 보여줍니다.