QWEN2.5-MATH TECHNICAL REPORT: TOWARD MATHEMATICAL EXPERT MODEL VIA SELFIMPROVEMENT
Summary
본 논문은 대규모 언어 모델의 수학적 추론 성능이 모델 구조보다는 데이터의 양·질·구성 방식에 의해 결정된다는 가설을 전면에 내세운다. Qwen2.5-Math는 새로운 아키텍처를 제안하지 않으며, 대신 수학 특화 데이터 코퍼스의 구축, 체계적인 합성 데이터 생성, 보수적으로 제한된 강화학습 적용을 통해 수학 성능을 단계적으로 끌어올린다.
핵심 기여는 다음과 같다.
첫째, 웹 기반 리콜 → 중복 제거 → LLM 기반 필터링 → 합성 데이터 생성으로 이어지는 수학 데이터 파이프라인의 정형화이다.
둘째, chain-of-thought(CoT) 데이터와 reward model(RM)을 policy optimization이 아닌 데이터 정제 및 선택 도구로 활용한 점이다.
셋째, 강화학습을 전면적으로 사용하지 않고, 학습 가능한 영역으로 엄격히 제한하여 수학적 추론 붕괴를 방지한 설계이다.
본 논문은 결과적으로 “수학 LLM의 성능 향상은 RL이 아니라 데이터 분포를 어떻게 설계하느냐의 문제”임을 실증적으로 보여준다.
우선 어떻게 했는지를 알아보기 전에, 수학 특화 LLM의 주요 병목에 대해서 알아보자.
Preliminary - Main bottleneck of math-specialized LLM
범용 LLM은 사전학습 단계에서 수학 데이터 비중이 낮아, 다음과 같은 문제점을 보인다.
- 수식 조작: 일반적인 자연어와 다르게 몇 개의 단어에서 오류가 나는 것이 치명적일 수 있어, 오류 허용 폭이 매우 좁다.
- 다단계 논리 추론: 여전히 다단계 및 long horizon task에서 성능 감소가 일어나는 것이 현재 언어모델 연구의 주요 사항 중 하나이다. 특히 수학의 경우에는 다단계 추론이 주로 필요하고, 그를 위해서는 많은 데이터는 필수적이라는 문제가 있다.
- 정답 검증 가능한 reasoning: 사전학습은 단순히 next token prediction을 하는 것이기 때문에 수학에서 과정과 답 모두를 검증 가능하다는 장점을 활용하지 못한다.
다시 설명하면, 범용 LLM은 사전학습 코퍼스에서 수학 데이터의 비중이 낮을 뿐 아니라, 설령 수학 텍스트가 포함되어 있더라도 ‘문제→풀이→정답’처럼 목표가 명확한 감독 신호가 희박하다. 이로 인해 모델은 수학적 정확성보다 언어적 그럴듯함에 최적화되기 쉽다.
특히 수학은 기호 하나의 오류가 정답을 완전히 바꾸는 영역이므로, 자연어에서처럼 애매함을 허용하는 학습 신호로는 수식 조작과 다단계 추론의 안정성이 확보되지 않는다. 따라서 본 논문은 사전학습 단계부터 수학 텍스트를 대량 리콜하고, 중복 제거와 품질 필터링으로 신호를 정제한 뒤, 합성 Q&A/CoT를 통해 ‘정답 검증 가능한’ 감독 신호의 밀도를 높이는 방식으로 데이터 분포 자체를 재설계하는 것이다.
Method
1. Pre-training: Qwen Math Corpus 구축
우선 Math Corpus를 어떻게 구축하는지 확인하자:
(1) 수학 데이터 리콜과 확장
- Common Crawl 등 대규모 웹 코퍼스에서 수학 데이터를 리콜한다.
- 고품질 수학 시드 데이터와 일반 텍스트를 사용해 FastText 분류기를 학습한다.
- 매 epoch마다 수학 데이터를 점진적으로 확장하는 iterative recall을 적용한다.
- URL, 메타정보를 활용해 수학 관련 문서 탐색 범위를 확장한다.
(2) 중복 제거와 품질 필터링
- MinHash 기반 near-duplicate 제거를 수행한다.
- Qwen2-0.5B-Instruct 모델을 활용해 LLM 기반 품질 평가를 수행한다.
- 단순히 양을 늘리는 것이 아니라, 추론 신호의 순도를 높이는 데 초점을 둔다.
(3) 합성 수학 데이터 생성
- Qwen2-72B-Instruct 모델을 사용해 대규모 수학 Q&A 데이터를 합성하는데, 기존 고품질 수학 데이터를 참조하여, 기존 문제의 정제·재구성 및 완전 신규 문제 생성을 병행한다.
(4) 데이터 혼합 어블레이션
- 소형 모델(Qwen2-Math-1.5B)을 사용해 데이터 비율에 대한 어블레이션을 수행한다.
- 이를 통해 약 700B 토큰 규모의 Qwen Math Corpus v1을 구축한다.
(5) Qwen2.5-Math로 확장
- 더 강력한 base model(Qwen2.5)을 초기화로 사용한다.
- 중국어 수학 데이터 비중을 대폭 확장한다.
- 합성 데이터 규모를 늘려 1T+ 토큰의 Qwen Math Corpus v2를 구성한다.
이 논문을 따라가다 보면, 왜 이 단계를 pre-training이라 부르는지 의문이 든다. 실제 학습은 기존 언어 모델의 next-token prediction이라는 매우 일반적인 목적함수로 수행되며, 학습 기법 자체에는 특별한 변화가 없다. 논문이 강조하고자 하는 바는 학습 과정이 아니라, 학습에 들어가기 이전 단계에서 수학 데이터의 분포를 어떻게 설계하느냐가 모델의 수학적 능력을 사실상 결정한다는 점이다. 즉, 본 논문에서의 pre-training은 새로운 태스크를 정의하는 것이 아니라, 데이터 구성을 통해 언어 모델이 수렴할 분포를 사전에 제어하는 과정으로 이해하는 것이 적절하다.
2. Post-training: Chain-of-Thought & Reward Model
이렇게 수학 능력을 위한 "분포"를 적합시켰으면, 아직 지식만 갖춘 상태이지 수학 문제를 직접적으로 풀 수 있는 능력은 가지지 못했다. 그렇기 때문에 post training에서 SFT를 수행하게 된다.
(1) Chain-of-Thought 데이터 합성
우선 GSM8K, MATH 등 기존 annotated 데이터와 합성 데이터를 혼합하여, 문제당 여러 reasoning path를 생성하고,
- 정답이 있는 경우: 정답 CoT만 선택
- 정답이 없는 경우: majority voting + reward score 기반 선택
이러한 응답들에 대해서 SFT를 적용하는 anchored(rejection sampling) self-improvement를 적용하게 된다.
(2) Reward Model 학습
우선 다음과 같은 과정을 거친다.
- 각 문제에 대해 6개의 응답을 생성하고, 정답 여부로 positive/negative를 구분한다.
- 모든 응답이 정답이거나 오답인 경우는 제거한다.
- 서로 다른 크기·단계의 모델 출력을 섞어 난이도 분포를 균형화한다.
여기서 중요한 점은, reward model이 절대 점수 모델이 아닌 상대 순위 모델로 학습된다는 것이다. 보통 reward를 통한 optimization을 생각하면, Policy gradient를 생각하는데 그저 더 좋은 응답을 가려내고, 그것을 기존에 응답을 낸 모델이 재학습하도록 신호 및 기준을 주는 것으로 이해해야 한다.
(사실 강화학습을 적용하기는 하지만) 본 논문이 강화학습이 아닌 SFT를 중심에 둔 이유를 살펴볼 필요가 있다. 수학 문제에서 reward 구조는 본질적으로 희소하며, 중간 추론 단계에 대해 정밀한 credit assignment를 수행하기 어렵다. 이 점에서 reward model은 “정답 여부”보다는 “응답이 그럴듯한가”를 판별하는 데 더 적합한 신호를 제공하는 경향이 있다.
중요한 점은, 이러한 reward model의 한계 자체가 SFT와 강화학습을 구분 짓는 결정적 요인은 아니라는 것이다. reward model은 SFT에서도 동일하게 사용되며, 이 경우에도 “그럴듯하지만 잘못된 추론”이 선택될 위험은 존재한다. 차이는 reward model을 어디까지 학습 신호로 사용하느냐에 있다.
강화학습에서는 reward model의 출력이 policy gradient를 통해 토큰 단위로 직접 전파된다. 이때 reward는 전체 응답에 대해 한 번에 부여되므로, 어떤 추론 단계가 올바르고 어떤 단계가 잘못되었는지를 구분할 수 없는 상태에서 gradient가 전 시퀀스에 걸쳐 적용된다. 그 결과, 모델은 실제로 정답에 기여한 추론 구조가 아니라, 우연히 높은 점수를 받은 표현적 특징이나 서술 패턴을 강화하게 된다. 이는 장황한 설명, 불필요한 수식 전개, 혹은 논리적 정합성이 없는 reasoning drift로 이어질 가능성이 높다.
반면 SFT에서는 reward model이 학습 신호로 직접 사용되지 않는다. reward model은 여러 후보 응답 중 상대적으로 더 나은 응답을 선별하는 기준으로만 활용되며, 학습 자체는 선별된 추론 경로를 정답 시퀀스로 간주한 next-token prediction 방식으로 이루어진다. 이 경우 reward model의 오류는 “잘못된 방향으로의 미세한 파라미터 업데이트”가 아니라, “일부 데이터 선택의 잡음”으로 국한된다. 즉, reward model의 불완전성이 학습 전반에 증폭되어 누적되는 것을 방지할 수 있다.
따라서 본 논문에서 SFT를 선택한 이유는 reward model이 완벽하기 때문이 아니라, reward model의 한계를 데이터 선택 단계에서 차단하고, 이를 policy optimization 단계까지 전파하지 않기 위함이라 볼 수 있다.
3. Reinforcement Learning
강화학습이 실제로 사용되기는 한다. 확인해보자.
(1) Query Selection
- 강화학습은 모든 문제에 대해서 적용되지 않는다. 8개의 응답 중 2~5개만 정답인 문제들만 선별하여 강화학습을 진행한다. 왜냐하면 너무 쉬운 문제의 경우 LLM이 거의 다 맞추었을 것이기 때문에 학습 신호가 없으며, 너무 어려운 문제의 경우에는 노이즈만 증폭되는 결과가 나타나기 때문이다.
(2) GRPO
Reward scale의 왜곡 문제와 분산 제어로 효과가 좋은 것으로 유명한 Group Relative Policy Optimization(GRPO)를 사용한다.

(3) Reward Shaping
- 규칙 기반 verifier(정답 검증) + reward model 점수를 결합한다. 정답/오답의 sign을 verifier가 강하게 고정하고, RM은 정답 그룹 내 미세한 차이만 반영한다.
본 논문에서 강화학습의 목적은 다른 방법론들과 다르게 새로운 탐험을 하는 것이 아니라, 오로지 정답을 더 안정적으로 출력하도록 policy를 미세 조정하는 보수적 설계에 두고 있음을 기억하자.
Decontamination
대규모 언어 모델의 성능을 논할 때 가장 흔히 간과되는 문제 중 하나는 **평가 데이터 오염(contamination)**이다. 모델이 실제로 문제를 “추론해서” 푸는 것인지, 아니면 학습 과정에서 이미 유사한 문제를 보았기 때문에 맞히는 것인지를 구분하지 못하면, 평가 결과 자체가 무의미해진다. Qwen2.5-Math 논문은 이 문제를 단순한 형식적 절차가 아니라, 모델 성능 해석의 전제 조건으로 다룬다.
수학 문제는 자연어와 달리, 문제 구조가 강하게 재사용되는 영역이다. 숫자나 조건만 약간 바꾼 문제라도, 풀이 전략과 논리 구조는 거의 동일한 경우가 많다. 만약 이러한 문제들이 학습 데이터와 평가 데이터에 동시에 존재한다면, 모델의 높은 정확도는 일반화 능력이 아니라 기억 기반 재현의 결과일 가능성이 크다.
특히 이 논문처럼 “수학적 추론 능력의 향상”을 주장하는 경우, 평가 데이터 오염은 성능 향상을 과대평가하게 만드는 가장 치명적인 요인이다. 따라서 decontamination은 선택 사항이 아니라 필수적인 방어 장치다.
너무 많아서...ㅋㅋ 자세한 내용은 논문을 보자

RL을 거의 사용하지 않는 좋은 방법인 것 같다. 테스크에 따라서 전략은 달라짐을 알아야겠다.
'논문 리뷰 > NLP' 카테고리의 다른 글
| Soft Adaptive Policy Optimization 논문 리뷰 (0) | 2026.01.29 |
|---|---|
| Large Language Diffusion Models 논문 리뷰 (0) | 2026.01.25 |
| KTO 논문 리뷰 (0) | 2025.12.06 |
| Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning 논문 리뷰 (0) | 2025.10.09 |
| EVOLUTION STRATEGIES AT SCALE: LLM FINETUNING BEYOND REINFORCEMENT LEARNING 논문 리뷰 (0) | 2025.10.07 |