Orca 2: Teaching Small Language Models How to Reason
Summary & Key Contributions
Orca 2는 작은 언어 모델(SLMs) 의 추론 능력을 강화하기 위해, 단순한 추론 모방 학습을 넘어 과제에 맞는 최적의 추론 전략 선택(Cautious Reasoning) 을 학습시키는 접근법을 제안한다.
이를 통해 작은 모델이 주어진 과제에 가장 적합한 추론 방법을 선택하고, 더 큰 모델보다 효율적으로 문제를 해결할 수 있도록 한다.
작은 LM이 단순히 단일 전략(step-by-step) 추론이 아닌 여러 유형의 추론 전략을 선택하도록 학습하는 방법을 제시하며 그에 대한 학습 방법을 베이스로 제공했다는 점에서 본 논문이 SLM의 추론 능력 향상에 기여했다고 볼 수 있다.
Preliminaries
Instruction Fine-tuning
Instruction fine tuning은 LM에 input, ouput pair을 제공하여 학습하는데, 이 때 input은 task에 대한 기술, output은 원하는 행동에 대한 demonstration이다. 이렇게 테스크에 대해서 바람직한 응답 방식을 제공함으로써 모델이 사용자의 지시에 따를 수 있도록 하며, zero-shot 능력이나 추론 능력을 향상시키는 것으로 알려져 있다.
이러한 방식을 활용하여, teacher model이 student model을 학습시킴에 있어서 instruction tuning을 적용하기도 한다. 이렇게 행동을 모방하는 방식은 teacher model의 스타일을 모방하는 데 효과적이나, 정확성이 중요한 과제의 경우 스타일을 따라할 뿐 원하는 성능에 충분히 다가가지 못한다는 연구 결과가 있다.
Explanation Tuning
Instruction tuning의 한계는 학생 모델이 형식상 맞아 보이지만 실제로는 틀린 응답을 생성할 수 있다는 점이다.
특히, 너무 간결한 목표 출력을 학습하면 복잡한 추론 과정을 접할 기회가 줄어들어, 다른 과제로의 일반화 능력이 떨어진다. Explanation tuning은 이를 해결하기 위해, 교사 모델이 과제를 풀어가는 추론 과정과 근거가 포함된 풍부한 응답을 학습 데이터로 제공한다.
즉, 모델이 정답뿐 아니라 풀이 과정의 스타일까지 학습하도록 하여, 새로운 과제에서도 적절한 추론 전략을 활용할 수 있게 한다.
Training Strategy
Explanation Tuning의 핵심은, system instruction을 기반으로 LLM으로부터 자세한 설명이 포함된 답변을 추출하는 것이다. 그러나 본 논문은 system instruction이 바뀌는 것만으로도 GPT-4 같은 우수한 모델의 성능이 크게 달라질 수 있다는 것을 보이면서, LLM이 과제를 추론하는 전략은 과제에 따라 달라져야 함을 보여주었다.
따라서 논문은 작은 모델이 주어진 문제에 대해 가장 적합한 해결 전략을 선택하는 법을 배워야 한다는 것을 강조하며, 작은 언어모델의 학습 데이터셋에 있어서 문제마다 다른 사고 전략을 구성하도록 해야 함을 강조한다.
절차는 다음과 같다:
- 다양한 과제 dataset 준비
- Orca 성능을 참고하여 각 과제이 필요한 해결 전략을 결정 (direct answer, step-by-step, explain-then-answer 등)
- 선택된 전략에 맞는 과제별 system instruction을 작성하고, 이를 사용하여 teacher 모델의 응답 수집
- 학생 모델에게는 과제 접근 방식의 세부 내용이 빠진, Prompt Erasing을 통해 일반 지시문만 제공
Experiments
Orca-2 모델의 성능을 확인하기 위하여, 다음과 같은 비교 모델이 선정되었다:
- LLaMA-2: 13B 및 70B 모델 사용
- WizardLM: LLaMA 2 기반, instruction tuning 버전(정확히는 evol-instruct, 다양한 복잡한 instruction 데이터를 자동 생성하는 기법)
- Orca 1: LLaMA 2 기반, 다양한 테스크에 대해서 설명 및 단계별 사고 과정, 지시문을 학습
- GPT: 우수 모델 (ㅋㅋ)

새롭게 만들어진 Orca-2가 평균적으로 다른 모델에 비해서 우수함을 확인할 수 있고, 특히 패러미터 수가 최대 10배나 차이가 남에도 불구하고 필적할만한, 또는 능가하는 성능을 보여준 것은 고무적이다.
또한 ARC, GSM8K와 같이 추론이 필요한 벤치마크에서 우수한 성능을 보여준 것은 모델이 적절한 추론 전략 또한 잘 학습했음을 보여준다.

Orca1과 비교하여 reasoning benchmark이 상승했느냐가 중요한 포인트인데, 대체적으로 성능이 향상된 것을 확인할 수 있다. 특히 RACE(reading comprehension) 벤치마크에서 GPT-4와 필적할 만한 성과를 낸 것도 인상적이다.


안전 관련 벤치마크 평가다. 결과를 보면 어? 할 수 있지만, 특히 system instruction이 존재하면 더 안전해지지 않는(?) 문제점이 보이기는 하다만(직접 논문을 보면서 평가 결과를 확인해보자) 주목할 것은, RLHF로 alignment 튜닝된 언어모델인 LLaMA-2 chat에 비교해서 성능이 크게 뒤쳐지지 않거나, 더 우수한 경우도 있다는 것이다.
참고로 ORCA-2는 RLHF 기반 alignment는 적용되지 않았다.
Summary
Orca 2는 작은 언어모델(Small LMs)의 추론 능력을 극대화하기 위해, 기존 Orca 1의 Explanation Tuning을 확장하여 Cautious Reasoning 프레임워크를 제안한다.
이는 단일 추론 방식(step-by-step)에 고정되지 않고, 과제별로 최적의 전략(직접 답변, 단계별, 설명 후 답변, recall-then-generate 등)을 선택하는 능력을 학습시키는 접근법이다.
교사 모델(GPT-4, ChatGPT)로부터 다양한 전략별 데이터를 수집하고, 학습 시 Prompt Erasure를 적용하여 전략 의존도를 낮추고 일반화를 유도했다.
Significance
단일 reasoning 방식을 학습한 것이 아닌, 여러 전략을 학습하여 언어모델이 과제별 최적 전략을 학습할 수 있도록 했으며, 이로 인해 작은 언어모델로도 더 큰 패러미터 사이즈의 모델보다 우수한 성능을 보일 수 있음을 보였다.
또한 RLHF와 같은 효과적인 alignment 기법을 사용하지 않고도 충분히 안전성 있는 지표를 보인 것도 이 논문의 강점이라고 볼 수 있다.
Limitations
그러나 자원 사용량의 측면에서 비용적으로 너무 많이 든 것 같다는 느낌이 들어 이에 대해서 전략을 최적화하면서 추론을 하되, 조금 더 좋은 방법을 제시해볼 수 있지 않을까 하는 생각은 들었다.
'논문 리뷰 > NLP' 카테고리의 다른 글
| DPO 논문 리뷰 (3) | 2025.08.12 |
|---|---|
| AlphaEdit 논문 리뷰 (3) | 2025.08.09 |
| Probabilistic Inference in Language Models via Twisted Sequential Monte Carlo 논문 리뷰 (2) | 2025.08.07 |
| InstructGPT 논문 리뷰 (1) | 2025.08.05 |
| SimCSE 논문 리뷰 (1) | 2025.08.01 |