Search

AI/ Paper/ DeepSeek-R1

Abstract

우리는 우리의 first-generation reasoning 모델인 DeepSeek-R1-Zero와 DeepSeek-R1을 소개한다. preliminary step으로 supervised fine-tuning(SFT)를 사용하지 않고 대규모 reinforcement learning(RL)을 통해 학습된 모델인 DeepSeek-R1-Zero의 놀라운 reasoning 능력을 시연한다. RL을 통해 DeepSeek-R1-Zero는 자연스럽게 수많은 강력하고 흥미로운 reasoning 행동을 나타낸다. 그러나 빈곤한 해석 가능성과 language mixing 같은 도전을 마주한다. 이러한 문제를 해결하고 추가로 reasoning 성능을 향상하기 위해 RL 전에 multi-stage 학습과 cold-start data를 통합한 DeepSeek-R1을 소개한다. DeepSeek-R1은 reasoning 작업에 대해 OpenAI-o1-1217과 비교할만한 성능을 달성한다. 연구 커뮤니티를 지원하기 위해 우리는 DeepSeek-R1-Zero와 DeepSeek-R1과 Qwen과 Llama을 기반으로 DeepSeek-R1에서 distilling한 6개의 dense model(1.5B, 7B, 8B, 14B, 32B, 70B)를 오픈소스화 한다.

1. Introduction

최근 몇 년 LLM은 점진적으로 Artificial General Intelligence(AGI)와의 격차를 감소시키기 위해 빠른 반복과 진화를 겪고 있다.
최근에는 post-training이 full training 파이프라인의 중요한 컴포넌트로 부상했다. 이것은 pre-training에 비해 상대적으로 적은 계산 자원만 요구하면서 reasoning 작업의 정확도를 향상 시키고, 사회적 가치에 부합하고, 사용자 선호에 적응하는 것으로 보인다.
reasoning 능력의 맥락에서 OpenAI의 o1 시리즈 모델은 Chain-of-Thought reasoning 프로세스의 길이를 증가시켜서 inference-time 스케일링을 처음으로 소개했다. 이 접근은 수학, 코딩, 과학 reasoning과 같은 다양한 reasoning 작업에서 상당한 개선을 달성했다. 그러나 효율적인 test-time 스케일링의 도전은 연구 커뮤니티에 대해 open question으로 남는다. 여러 이전 작업에서 process-based reward model, reinforcement learning과 Monte Carlo Tree Search와 Beam Search와 같은 탐색 알고리즘을 포함하여 다양한 접근을 탐색했다. 그러나 이러한 것들 중 어느 것도 OpenAI의 o1 시리즈 모델의 일반화 reasoning 성능과 비교할만한 성능에 도달하지 못했다.
이 논문에서 순수 RL을 사용하여 언어 모델의 reasoning 능력을 개선하는 첫 단계를 수행한다. 우리의 목표는 어떤 supervised 데이터 없이 reasoning 능력을 개발하는 LLM의 잠재력을 탐색하데 초점을 맞추고 순수한 RL 프로세스를 통한 self-evolution에 중점을 둔다. 구체적으로 우리는 DeepSeek-V3-Base를 base model로 사용하고 GRPO를 RL 프레임워크로 활용하여 reasoning에서 모델 성능을 개선한다. 학습 동안 DeepSeek-R1-Zero는 자연스럽게 수많은 강력하고 흥미로운 reasoning 행동을 드러낸다. RL step을 수천 번 수행한 후에 DeepSeek-R1-Zero는 reasoning 벤치마크에서 강략한 성능을 나타낸다. 예컨대 AIME 2024에 대한 pass@1 점수는 15.6%에서 71.0%로 증가하고, majority voting을 사용하면 추가로 score가 86.7%f로 개선된다. 이것은 OpenAI-o1-0912의 성능과 일치한다.
그러나 DeepSeek-R1-Zero는 빈곤한 해석 가능성과 language mixing 같은 도전을 마주한다. 이 이슈를 해결하고 reasoning 성능을 더 개선하기 위해 우리는 소량의 cold-start 데이터와 multi-stage training pipeline을 통합한 DeepSeek-R1을 소개한다. 구체적으로 DeepSeek-V3-Base model을 fine-tuning 하기 위해 수천 개의 cold-start 데이터를 수집하는 것으로 시작한다. 그 다음 DeepSeek-R1-Zero 같은 reasoning-oriented RL을 수행한다.
RL 프로세스에서 수렴에 가까워지면 writing, factual QA, self-cognition과 같은 도메인에서 DeepSeek-V3로부터 supervised 데이터를 결합하여 RL 체크포인트에서 rejection 샘플링을 통해 새로운 SFT 데이터를 생성하고, DeepSeek-V3-Base 모델을 다시 학습한다. 새로운 데이터로 fine-tuning한 후에 checkpoint는 모든 시나리오에서 프롬프트를 고려하여 추가적인 RL 프로세스를 거친다. 이러한 단계 후에 OpenAI-o1-1217과 성능을 견주는 것을 DeepSeek-R1이라 부르는 체크포인트를 얻는다.
우리는 추가로 DeepSeek-R1에서 더 작은 dense model로 distillation을 탐구한다. QWen2.5-32B를 base 모델로 하면, DeepSeek-R1에서 직접 distillation하는 것이 RL을 적용하는 것을 능가한다. 이것은 더 큰 base 모델에 의해 발견된 reasoning 패턴이 reasoning 능력을 개선하는데 핵심임을 보인다. 우리는 distilling 된 Qwen과 Llama 시리즈를 오픈소스로 공개한다. 특히 dilstilling 된 14B 모델은 최첨단 오픈 소스 QwQ-32B preview를 큰 격차로 능가하고, 32B와 70B로 distilling 된 모델은 dense 모델 간의 reasoning 벤차마크에서 새로운 기록을 세운다.
DeepSeek-R1-Zero와 DeepSeek-R1 모두 바닥부터 만들어진 모델이 아니라 DeepSeek-V3를 기반으로 reasoning 능력을 부여한 모델이고, R1-Zero는 순수 RL만으로 학습되었고, R1은 cold start용 SFT와 multi-stage pipe line을 활용하여 만들어졌다.
한편 이렇게 만들어진 R1에서 생성된 데이터를 V3의 reasoning 능력을 학습시키는데 활용되었음. 덕분에 V3와 R1은 모두 일반적인 NLP task와 reasoning task를 수행할 수 있는 모델이 되었다. 다만 R1이 reasoning task에 대해 좀 더 적합하고, V3는 일반적인 NLP task에 대해 좀 더 적합함

1.1. Contributions

Post-Training: Large-Scale Reinforcement Learning on the Base Model
preliminary step로 supervised fine-tuning(SFT)를 의존하지 않고 RL을 base model에 직접 적용한다. 이 접근을 통해 모델은 복잡한 문제를 해결하기 위한 chain-of-thought(CoT)를 탐색하는 것을 가능하게 하여 DeepSeek-R1-Zero을 개발 할 수 있다. DeepSeek-R1-Zero는 self-verification, reflection과 long CoT 생성 같은 능력을 시연하며 연구 커뮤니티에 대한 중요한 이정표를 마킹했다. 특히 LLM의 reasoning 능력이 SFT 없이 순수하게 RL만으로 장려될 수 있음을 검증하는 최초의 open 연구이다. 검증한. 이러한 돌파구는 이 분야의 미래 진보를 위한 길을 포장한다.
우리는 DeepSeek-R1을 개발을 위한 파이프라인을 소개한다. 파이프라인에는 개선된 reasoning 패턴을 발견하고 인간 선호에 부합하는 것을 목적으로 하는 2개의 RL stage와 모델의 reasoning과 non-reasoning에 대한 seed 역할을 하는 두 개의 SFT stage가 통합되어 있다. 우리는 이 파이프라인이 더 나은 모델을 생성하여 산업계에 이익을 줄 것이라 믿는다.
Distillation: Smaller Models Can Be Powerful Too
우리는 더 큰 모델의 reasoning 패턴이 더 작은 모델로 distilling 될 수 있음을 보인다. 이것은 작은 모델에서 RL을 통해 발견된 reasoning 패턴과 비교하여 더 나은 성능을 보인다. 오픈 소스 DeepSeek-R1과 API는 미래에 더 좋은 더 작은 모델을 distilling하는데 연구 커뮤니티에 도움이 될 것이다.
DeepSeek-R1에 의해 생성된 reasoning 데이터를 사용하여 우리는 연구 커뮤니티에 널리 사용되는 여러 dense 모델을 fine-tuning한다. 평가 결과 distilling 된 더 작은 dense 모델이 벤치마크에서 예외적으로 잘 수행됨을 보인다. DeepSeek-R1-Distill-Qwen-7B는 AIME 2024에서 55.5%를 달성하여 QwQ-32B-Preview를 능가한다. 또한 DeepSeek-R1-Distill-Qwen-32B는 AIME 2024에서 72.6%, MATH-500에서 94.3%, LiveCodeBench에서 57.2%를 달성한다. 이러한 결과는 이전 오픈 소스 모델을 상당히 능가하고 o1-mini와 비교할만하다. 우리는 Qwen2.5와 Lama34 시리즈를 기반으로 distilling된 1.5B, 7B, 8B, 14B, 32B, 70B 체크포인트를 오픈 소스화한다.
DeepSeek-R1-Zero는 SFT 없이 base 모델에 대한 RL 만으로도 reasoning 능력을 부여할 수 있음을 증명하였기 때문에 학술적으로는 좀 더 의미가 있으나, R1-Zero가 갖는 몇 가지 한계가 있었고, 이를 해결하기 위해 기존 방식(GRPO와 cold start SFT 등)을 활용한 대규모 RL로 높은 성능의 reasoning 능력을 갖는 R1 만들었음. R1-Zero와 달리 R1 자체에는 새로운 게 별로 없는데, 다만 reasoning 모델을 학습시키는 절차를 공개했다는 점에서 주목할만 하다. 추가로 reasoning 능력 또한 작은 모델에 distilling 할 수 있음도 보임.

1.2. Summary of Evaluation Results

Reasoning Task: (1) DeepSeek-R1은 AIME 2024에서 79.8% Pass@1 score를 달성하여 OpenAI-o1-1217을 약간 능가한다. MATH-500에서는 인상적인 점수 97.3%를 얻어서 OpenAI-o1-1217과 견줄만하고 다른 모델을 상당히 능가한다. (2) coding-related 작업에서 DeepSeek-R1은 코드 대회 작업에서 전문가 레벨을 시연한다. Codeforces에서 2,029 Elo rating을 달성하여 96.3% 인간 참가자들을 능가한다. 엔지니어링 관련 작업에서 DeepSeek-R1은 DeepSeek-V3를 약간 능가하여 현실 세계 작업에서 개발자들을 도울 수 있다.
Knowledge: MMLU, MMLU-Pro, GPQA Diamond 같은 벤치마크에서 DeepSeek-R1은 뛰어난 결과를 달성한다. MMLU에서 90.8%, MMLU-Pro에서 84%, GPQA Diamond에서 71.5%의 점수로 DeepSeek-V3를 상당히 능가한다. 반면 이러한 벤치마크에서 성능은 OpenAI-o1-1217 보다 약간 떨어지지만 DeepSeek-R1은 다른 closed-source 모델을 능가한다. 교육적 작업에서 경쟁 우위를 시연한다. factual benchmark인 SimpleQA에서 DeepSeek-R1은 DeepSeek-V3을 능가하며 fact-기반 쿼리를 다루는 능력을 시연한다. OpenAI-o1이 4o를 이 벤치마크에서 능가하는 유사한 경향이 관찰된다.
Others: DeepSeek-R1은 창조적 글쓰기, 일반적인 질문 답변, 편집, 요약 등을 포함하여 광범위한 task에서 뛰어나다. AlpacaEval 2.0에서 87.6%의 인상적인 length-controlled 승률과 ArenaHard에서 92.3%의 승률을 보여 non-exam-oriented 쿼리를 지능적으로 다루는 강력한 능력을 보인다. 게다가 DeepSeek-R1은 long-context 이해가 필요한 작업에서 뛰어난 성능을 보여 long-context 벤치마크에서 DeepSeek-V3을 상당히 능가한다.

2. Approach

2.1. Overview

이전 연구에서는 모델 성능을 향상 시키기 위해 많은 양의 supervised 데이터에 매우 연관된다. 이 연구에서는 supervised fine-tuning(SFT)를 cold start로 사용하지 않아도 large-scale reinforcement learning(RL)을 통해 reasoning 능력이 상당히 개선될 수 있음을 보인다. 또한 소량의 cold-start 데이터를 포함하여 성능은 더 개선될 수 있다. 이어지는 섹션에서 우리는 다음을 제시한다. (1) 어떤 SFT 데이터를 사용하지 않고 기본 모델에 직접적으로 RL을 적용한 DeepSeek-R1-Zero (2) 수천 개의 long Chain-of-Thought(CcoT) 예제를 사용하여 fine-tuning 된 checkpoint에서 시작하여 RL을 적용한 DeepSeek-R1 (3) DeepSeek-R1에서 reasoning 능력을 작은 dense model로 distill 한 것.

2.2. DeepSeek-R1-Zero: Reinforcement Learning on the Base Model

강화 학습은 우리의 이전 연구에 의해 입증된 것처럼 reasoning 작업에서 상당한 효율성을 시연했다. 그러나 이러한 작업들은 수집하는데 시간-집약적인 supervised 데이터에 매우 의존한다. 이 섹션에서 순수 강화 학습 프로세스를 통해 그들의 self-evolution에 초점을 맞춰 supervised 데이터 없이 reasoning 능력을 개발하는 LLM의 잠재성을 탐구한다. 우리는 RL 알고리즘의 간략한 개요로 시작하고 이어서 일부 흥미로운 결과를 제시한다. 그것이 커뮤니티에 가치있는 인사이트를 제공하기를 희망한다.

2.2.1. Reinforcement Learning Algorithm

Group Relative Policy Optimization RL의 학습 비용을 절약하는 측면에서, 우리는 Group Relative Policy Optimization(GRPO)를 채택한다. 이것은 일반적으로 policy 모델과 동일한 크기를 갖는 critic 모델을 포기하고 대신 group score에서 baseline을 추정한다. 구체적으로 각 question qq에 대해 GRPO는 이전 정책 πθold\pi_{\theta_\text{old}}에서 출력의 그룹 {o1,o2,...,oG}\{o_1, o_2, ..., o_G\}을 샘플링한 다음 아래의 목적을 최대화하여 policy 모델 πθ\pi_\theta를 최적화 한다.
JGRPO(θ)=E[qP(Q),{oi}i=1Gπθold(Oq)]=1Gi=1G(min(πθ(oiq)πθold(oiq)Ai,clip(πθ(oiq)πθold(oiq),1ϵ,1+ϵ)Ai)βDKL(πθπref))\begin{align} \mathcal{J}_\text{GRPO}(\theta) &= \mathbb{E}[q \sim P(Q), \{o_i\}_{i=1}^G \sim \pi_{\theta_\text{old}}(O|q)] \\ &= \notag {1\over G}\sum_{i=1}^G \left(\min\left({\pi_\theta(o_i|q) \over \pi_{\theta_\text{old}}(o_i|q)}A_i, \text{clip}\left({\pi_\theta(o_i|q) \over \pi_{\theta_\text{old}}(o_i|q)}, 1-\epsilon,1+\epsilon \right)A_i \right) -\beta\mathbb{D}_\text{KL}(\pi_\theta\|\pi_\text{ref}) \right) \end{align}
DKL(πθπref)=πref(oiq)πθ(oiq)logπref(oiq)πθ(oiq)1\begin{align} D_\text{KL}(\pi_\theta\|\pi_\text{ref}) = {\pi_\text{ref}(o_i|q) \over \pi_\theta(o_i|q)} - \log{\pi_\text{ref}(o_i|q) \over \pi_{\theta}(o_i|q)} - 1 \end{align}
여기서 ϵ\epsilonβ\beta는 하이퍼파라미터이고 AiA_i는 각 그룹 내의 출력에 해당하는 reward의 그룹 {r1,r2,...,rG}\{r_1, r_2, ..., r_G\}를 사용하여 계산된 advantage이다.
Ai=rimean({r1,r2,...,rG})std({r1,r2,..,rG})\begin{align} A_i = {r_i - \text{mean}(\{r_1, r_2, ..., r_G\}) \over \text{std}(\{r_1, r_2, .., r_G\})}\end{align}
우선 PPO에서 사용되는 목적 함수는 아래처럼 정의된다.
JPPO(θ)=E[min(r(θ)Aπ(s,a),clip(r(θ),1ϵ,1+ϵ)Aπ(s,a))]r(θ)=πθ(as)πθold(as)Q(s,a)r+γV(s)Aπ(s,a)=Q(s,a)V(s)r+γV(s)\begin{aligned}\mathcal{J}_\text{PPO}(\theta) &= \mathbb{E}[\min(r(\theta)A_\pi(s, a), \text{clip}(r(\theta), 1-\epsilon,1+\epsilon)A_\pi(s,a))] \\ r(\theta) &= {\pi_\theta(a|s) \over \pi_{\theta_\text{old}}(a|s)} \\ Q(s,a) &\approx r + \gamma V(s')\\ A_\pi(s, a) &= Q(s,a) - V(s) \approx r+\gamma V(s')\end{aligned}
πθ(as),Q(s,a),V(s),A(s,a)\pi_\theta(a|s), Q(s,a), V(s), A(s,a)에 대한 설명은 아래 페이지 참조. r(θ)r(\theta)는 이전과 현재의 정책 사이의 비율로 정책이 너무 급격하게 변하지 않도록 제어하는 역할을 한다.
본래 PPO에서 Advantage A(s,a)A(s, a)는 행동 가치 함수 Q(s,a)Q(s,a)와 상태 가치 함수 V(s)V(s)를 이용하여 계산하지만, GRPO에서는 정책 함수 πθ(as)\pi_\theta(a|s)와 유사한 크기를 갖는 상태 가치 함수 V(s)V(s)를 효율성을 위해 사용하지 않고 식 (3)과 같이 Advantage AiA_i를 보상에서 직접 추정하는 방법(각 보상에 대해 보상의 평균을 빼고 표준 편차로 나눠서 정규화한다)을 사용한다.

2.2.2. Reward Modeling

reward는 RL의 최적화 방향을 결정하는 학습 신호의 소스이다. DeepSeek-R1-Zero를 학습하기 위해 우리는 주로 reward의 두 가지 유형으로 구성된 rule-based reward 시스템을 채택한다.
Accuracy rewards: accuracy reward 모델은 응답이 올바른지 여부를 평가한다. 예컨대 결과가 결정론적인 수학 문제의 경우 모델은 특정한 포맷(예: box 내에) 으로 최종 답변을 제공해야 하므로 정확성을 rule-based로 신뢰할만하게 검증할 수 있다. 유사하게 LeetCode 문제의 경우 사전 정의된 테스트 케이스에 기반하여 피드백을 생성하는데 컴파일러를 사용할 수 있다.
Format rewards: accuracy reward 모델에 추가로, 모델이 thinking 프로세스를 <think>와 </think> tag 사이에 넣도록 강제하는 format reward 모델을 활용한다.
DeepSeek-R1-Zero 개발에는 outcome 또는 process neural reward model을 적용하지 않는다. 왜냐하면 우리는 신경망 reward 모델이 대규모 강화학습 프로세스에서 reward hacking에 시달릴 수 있으며 리워드 모델을 재학습 하려면 추가적인 학습 리소스가 필요하고 전체 학습 파이프라인이 복잡해지기 때문이다.
DeepSeek-R1의 reward model은 신경망 기반을 사용하지 않고 rule-based reward model을 사용했다. 모델이 정확하게 검증 가능한 문제에 대해 응답지 정확한지를 평가하는 accuracy reward와 reasoning 과정을 <think></think> tag 안에 넣게 한 format reward가 그것이다. reward 모델에 신경망을 사용할 경우 reward hacking 문제가 발생하기 때문에 rule based로 만들었다고 함.

2.2.3. Training Template

DeepSeek-R1-Zero를 학습하기 위해 기본 모델이 특정한 instruction을 고수하도록 가이드하는 간단한 템플릿을 설계하는 것으로 시작한다. Table 1에 묘사된 것처럼 이 템플릿은 DeepSeek-R1-Zero가 먼저 reasoning process를 생성한 다음 최종 답변을 생성하도록 요구한다. 우리는 의도적으로 이러한 구조화된 형식에 대한 제약만 설정하고, reflective reasoning을 의무화하거나 특정한 문제 해결 전략을 유도하는 것과 같은 content-specific bias를 피한다. 이러한 방식으로 RL 프로세스 동안 모델의 자연스러운 발전 과정을 정확하게 관찰할 수 있도록 보장한다.

2.2.4. Performance, Self-evolution Process and Aha Moment of DeepSeek-R1-Zero

Performance of DeepSeek-R1-Zero 그림 2는 AIM 2024 벤치마크에 대해 RL 학습 전반에 걸친 DeepSeek-R1-Zero의 성능 궤적을 묘사한다. 그려진대로 DeepSeek-R1-Zero는 RL 학습이 진행됨에 따라 꾸준히 일관되게 성능이 향상되는 것을 볼 수 있다. 특히 AIME 2024에서 평균 pass@1 score는 초기 15.6%에서 인상적인 71.0%로 상당히 증가하여 OpenAI-o1-0912와 비교할만한 성능에 도달한다. 이러한 상당한 개선은 시간에 따라 모델 성능을 최적화하는 것에서 우리의 RL 알고리즘의 효율성을 강조한다.
Table 2는 다양한 reasoning 관련된 벤치마크의 걸쳐 DeepSeek-R1-Zero와 OpenAI의 o1-0912 모델 사이의 비교 분석을 제공한다. RL이 supervised fine-tuning 데이터 없이도 DeepSeek-R1-Zero가 견고한 reasoning 능력을 획득하도록 지원한다. 이것은 RL만으로 효과적으로 학습하고 일반화하는 모델의 능력을 강조하는 주목할만한 성과이다. 게다가 majority voting의 응용을 통해 DeepSeek-R1-Zero는 추가로 증강될 수 있다. 예컨대 AIME 벤치마크에 majority voting을 활용할 때 DeepSeek-R1-Zero의 성능이 71.0%에서 86.7%로 상승하고 OpenAI-o1-0912의 성능을 초과한다. majority voting을 사용하든 안 하든 DeepSeek-R1-Zero의 능력은 경쟁적인 성능을 달성하고 강력한 기본 능력과 reasoning 작업에서 추가 진보의 잠재성을 강조한다.
Self-evolution Process of DeepSeek-R1-Zero DeepSeek-R1-Zero의 self-evolution 프로세스는 RL이 모델을 자율적으로 reasoning 능력을 개선시키도록 어떻게 유도할 수 있는지를 보여주는 매력적인 시연이다. base 모델에서 RL을 직접 초기화하여 supervised fine-tuning stage의 영향 없이 모델의 진행을 가까이 모니터할 수 있다. 이 접근은 복잡한 reasoning 작업을 다루는 능력의 측면에서 시간의 경과에 따른 모델의 진화 방식을 명확히 보여준다.
그림 3에 묘사된 대로 DeepSeek-R1-Zero의 thinking 시간은 training 프로세스 전반에 걸쳐 일관되게 증가한다. 이러한 개선은 외부 조정의 결과가 아니라 모델 내부에 본질적인 개발 결과이다. DeepSeek-R1-Zero는 확장된 test-time computation을 활용하여 점점 더 복잡해지는 reasoning 작업을 해결하는 능력을 자연스럽게 획득한다. 이 계산은 수백에서 수천 개의 reasoning token의 생성하는데 이르며, 모델이 사고 과정을 더 깊이 탐색하고 개선할 수 있도록 한다.
이러한 self-evolution의 가장 놀라운 측면 중 하나는 test-time 계산이 증가함으로써 영리한 행동이 출현한다는 것이다. 이전 step을 재방문하고 다시 평가하는 reflection 같은 행동, 문제 해결을 위해 대안 접근을 탐색같은 행동이 자발적으로 발생한다. 이러한 행동은 명시적으로 프로그램되지 않았지만 강화학습 환경과 모델의 상호작용 결과로써 나타난다. 이러한 자발적인 개발은 DeepSeek-R1-Zero의 reasoning 능력을 매우 향상시키고 더 도전적인 작업을 더 효율적이고 정확하게 다룰 수 있게 한다.
Aha Moment of DeepSeek-R1-Zero DeepSeek-R1-Zero의 학습하는 동안 관찰된 특히 흥미로운 현상은 ‘aha moment’의 출현이다. Table 3에 표시된 이 모멘트는 모델의 중간 버전에서 나타난다 이 phase에서 DeepSeek-R1-Zero는 초기 접근을 재평가하여 문제에 더 많은 생각 시간을 할당하는 방법을 학습한다. 이 행동은 모델의 성장하는 reasoning 능력의 증거일 뿐만 아니라 강화학습이 기대하지 않은 영리한 결과를 이끌 수 있는 방법에 대한 매혹적인 예제이다.
이 모멘트는 모델 뿐만 아니라 그것을 관찰하는 연구자들에 대해서도 ‘aha moment’ 이다. 그것은 강화학습의 능력과 아름다움을 강조한다. 문제를 해결해야 하는 방법에 대해 명시적으로 학습하시키는 대신 우리는 올바른 인센티브를 제공하면 자율적으로 진보된 문제 해결 전략을 개발한다. ‘aha moment’는 인공 시스템에서 새로운 레벨의 지능을 열어 미래에 더 자율적이고 적응 가능한 모델을 위한 길을 닦을 수 있는 RL의 잠재력을 강력하게 상기시켜준다.
Drawback of DeepSeek-R1-Zero DeepSeek-R1-Zero가 강력한 reasoning 능력과 예상치 못한 강력한 reasoning 행동을 자율적 개발 했음에도 몇 가지 이슈를 직면한다. 예컨대 DeepSeek-R1-Zero는 빈곤한 해석 가능성과 language mixing 같은 어려움을 갖는다. reasoning 프로세스를 더 해석 가능하게 만들고 open 커뮤니티와 공유하도록 우리는 인간 친화적인 cold-start data를 갖는 RL를 사용하는 방법인 DeepSeek-R1을 탐색한다.

2.3. DeepSeek-R1: Reinforcement Learning with Cold Start

DeepSeek-R1-Zero의 유망한 결과에 영감 받아, 2가지 질문이 자연스럽게 떠오른다. 1) 작은 양의 고품질 데이터를 cold start로 통합하여 reasoning 성능을 더 개선하거나 수렴을 가속화될 수 있을까? 2) 명확하고 일관성 있는 Chains of Thought(CoT)를 생성할 뿐만 아니라 강력한 일반화 능력을 보이는 사용자 친화적인 모델을 어떻게 학습시킬 수 있을까? 이러한 질문을 해결하기 위해 우리는 DeepSeek-R1 을 학습하는 파이프라인을 설계한다. 이 파이프라인은 아래 요약된 4개 stage로 구성된다.

2.3.1. Cold Start

base 모델에서 학습의 초기 RL 불안정한 cold start phase를 방지하기 위해 DeepSeek-R1-Zero와 달리 DeepSeek-R1에 대해 초기 RL actor로 fine-tune 하기 위해 작은 양의 long CoT 데이터를 구성하고 수집한다. 이런 데이터를 수집하기 위해 우리는 여러 접근을 탐색한다. 예시로 long CoT를 사용하여 few-shot 프롬프팅, reflection과 verification을 통해 상세한 답변을 생성하도록 모델을 직접적으로 프롬프팅, readable 형식으로 DeepSeek-R1-Zero 출력을 수집하고 인간 주석자에 의해 post-processing을 통해 결과를 조정.
이 연구에서 우리는 수천 개의 cold-start 데이터를 수집하여 DeepSeek-V3-Base를 RL의 시작점으로 fine-tune한다. DeepSeek-R1-Zero와 비교하여 cold start 데이터의 이점은 다음과 같다.
Readability: DeeepSeek-R1-Zero의 핵심 한계는 content가 종종 읽기에 적합하지 않다는 것이다. 응답은 여러 언어가 혼합되거나 사용자를 위해 답변을 highlight 하는 마크다운 형식이 깨질 수 있다. 반면 DeepSeek-R1에 대해 cold-start 데이터를 생성할 때, 우리는 각 응답의 끝에서 요약을 포함하고 reader 친화적이지 않은 응답을 필터링하는 readable 패턴을 설계한다. 여기서 우리는 출력 형식을 |special_token|<reasoning_process>|special_token|<summary>로 정의한다. 여기서 reasoning 프로세스는 query에 대한 CoT이고 요약은 reasoning 결과를 요약하도록 사용된다.
Potential: 인간의 prior로 cold-start 데이터에 대한 패턴을 조심스럽게 설계하여, DeepSeek-R1-Zero에 대해 더 나은 성능을 관찰한다. 우리는 반복적인 학습이 reasoning 모델에 대해 더 나은 방법이라고 믿는다.
일반적으로 cold start라고 하면 모델을 본격적으로 학습 시키기 전에 초기 설정의 의미를 가지며, R1-Zero에서 cold start 단계 없이 RL을 바로 수행했던 것과 달리 R1은 여러 방식으로 수집된 작은 양의 long Chain-of-Thought(CoT) 데이터를 활용하여 DeepSeek-V3 모델에 대해 supervised fine-tuning(SFT)을 수행해서 기초적인 reasoning 능력을 부여한다.

2.3.2. Reasoning-oriented Reinforcement Learning

cold start 데이터로 DeepSeek-V3-Base를 fine-tuning한 후에 우리는 DeepSeek-R1-Zero에서 활용된 것과 동일한 대규모 강화 학습 절차를 적용한다. 이 phase에서는 모델의 reasoning 능력을 향상시키는데 초점을 맞춘다. 특히 명확한 해법을 갖는 잘 정의된 문제가 포함된 코딩, 수학, 과학, logic reasoning 같은 reasoning-집약적인 작업에서 그렇다. 학습 프로세스 동안 우리는 CoT가 종종 language mixing을 나타낸다는 것을 관찰한다. 특히 RL 프롬프트에 여러 언어가 포함될 경우 그렇다. language mixing의 이슈를 완화하기 위해 우리는 RL 학습 동안 language consistency reward를 도입한다. 이것은 CoT에서 대상 언어 단어의 비율로 계산된다. ablation 실험에서 이런 정렬이 모델의 성능을 약간 감소시키는 결과를 보였음에도, 이것은 인간 선호와 부합하여 더 읽기 쉽다. 마지막으로 우리는 reasoning 작업의 정확성과 language 일관성에 대한 보상을 직접 결합하여 최종 보상을 형성한다. 그 다음 reasoning task에 대해 수렴을 달성할 때까지 fine-tuned 모델에 대해 RL 학습을 적용한다.
cold start 이후에 대규모 데이터를 이용하여 본격적인 RL을 수행한 단계. 여기서는 수학, 과학 등과 같은 rule-based로 정답 검증이 가능한 reasoning task에 대한 reasoning 능력에 초점을 맞추어 대규모 RL 학습을 진행한다. 여기서는 GRPO 목적에 language mixing 문제를 해결하기 위한 language consistency reward를 추가하여 학습한다.

2.3.3. Rejection Sampling and Supervised Fine-Tuning

reasoning-oriented RL 수렴되면 결과 checkpoint를 활용하여 후속 round를 위한 SFT 데이터를 수집한다. 주로 reasoning에 초점을 맞춘 초기 cold-start 데이터와 달리 이 stage에서 다른 도메인에서 데이터를 통합하여 모델의 writing, role-playing과 다른 일반적인 목적 작업의 능력을 향상시킨다. 특히 우리는 아래 설명한 것처럼 데이터를 생성하고 모델을 fine-tuning한다.
Reasoning data 우리는 reasoning 프롬프트를 선별하고 위의 RL 학습의 checkpoint에서 rejection 샘플링을 수행하기 위해 reasoning 궤적을 생성한다. 이전 stage에서 rule-based 보상을 사용하여 평가할 수 있는 데이터만 포함했다. 그러나 이 stage에서 우리는 ground-truth와 model 예측을 DeeSeek-V3에 공급하여 judgement함으로써 generative reward model을 사용하는 일부 데이터를 추가로 통합하여 데이터셋을 확장한다. 또한 모델의 출력이 가끔 카오스이고 읽기 어렵기 때문에 mixed language, long paragraph와 code block을 갖는 chain-of-thought를 필터링한다. 각 프롬프트에 대해 여러 응답을 샘플링하고 올바른 것만 유지한다. 총 600k 정도의 reasoning 관련된 학습 샘플을 수집한다.
Non-Reasoning data writing, factual QA, self-cognition과 translation 같은 non-reasoning 데이터에 대해 우리는 DeepSeek-V3 파이프라인을 채택하고 DeepSeek-V3의 SFT 데이터셋의 일부를 재사용한다. 특정한 non-reasoning 작업에 대해 프롬프팅을 통해 질문에 답변하기 전에 DeepSeek-V3를 호출하여 potential chain-of-thought를 생성한다. 그러나 ‘hello’ 같은 더 간단한 쿼리에 대해 응답에 CoT를 제공하지 않는다. 결국 reasoning과 관련 없는 총 약 200k 학습 샘플을 수집한다.
우리는 위의 선별된 약 800k 샘플의 데이터셋을 사용하여 2 epoch 동안 DeepSeek-V3-Base를 fine-tune한다.
2번째 단계에서 대규모 RL을 통해 reasoning task에 대한 reasoning 능력이 갖춰지면, 3번째 단계에서는 여러 domain의 데이터셋을 추가하여 보다 general한 능력을 키움.
이 단계에서 rule-based로 평가 가능한 코딩, 수학, 과학 등의 reasoning task는 여전히 rule-based로 평가하고, 글쓰기, role-playing, 번역 등과 같은 task는 일단 reasoning 능력이 갖춰진 R1을 통해 여러 reasoning 답변을 생성하게 한 후 V3 모델을 활용해서 가장 적절한 답변을 선택하도록 하는 rejection sampling을 통해 추가로 reasoning 데이터셋을 확보한 다음 (RL이 아니라) supervised fine-tuning을 수행한다.
여기서 rejection sampling은 우선 학습 시키려는 모델을 이용하여 동일한 프롬프트에 대해 여러 답변을 출력하게 하고, 다른 reference 모델을 이용하여 해당 답변 중에 가장 적절한 답변을 선택하고, 그것들을 모아 학습 시키려는 모델의 학습 데이터셋으로 활용하는 방법을 말한다.

2.3.4. Reinforcement Learning for all Scenarios

모델을 인간 선호와 추가로 정렬하기 위해 모델의 helpfulness와 harmlessness를 개선하면서 동시에 reasoning 능력을 개선하는 것 초점을 맞추는 2차 강화 학습 stage를 구현한다. 구체적으로 reward 신호와 다양한 프롬프트 분포의 결합을 사용하여 모델을 학습한다. reasoning 데이터의 경우 수학, 코드, 논리적 reasoning 도메인에서 학습 프로세스를 가이드하기 위해 rule-based reward를 활용하는 DeepSeek-R1-Zero에서 요약된 방법론을 고수한다. 일반적인 데이터의 경우 복잡하고 미묘한 시나리오에서 인간 선호를 포착하도록 reward 모델을 의존한다. DeepSeek-V3 파이프라인을 기반으로 구축하고 선호 쌍과 학습 프롬프트와 유사한 분포를 채택한다. helpfulness를 위해 최종 요약에만 초점을 맞추어 평가가 사용자에게 응답의 유용성과 관련성을 강조하고 기본 reasoning 프로세스와의 간섭을 최소화하도록 한다. harmlessness을 위해 reasoning 프로세스와 요약 모두를 포함하여 모델의 전체 응답을 평가하여 생성 프로세스 동안 발생할 수 있는 잠재적인 위험, 편향 또는 harmful 컨텐트를 식별하고 완화한다. 궁극적으로 reward 신호와 다양한 데이터 분포의 통합을 통해 helpfulness와 harmlessness를 우선시 하면서 reasoning에서 뛰어난 모델을 학습하는 것이 가능하다.
3단계를 통해 일반화된 task에 대한 reasoning 능력을 갖춘 R1에 대해 마지막으로 인간의 선호와 align 되도록 helpfulness와 harmlessness를 개선하는 단계를 수행한다. 여기서는 다시 RL을 사용하며, rule-based 평가가 가능한 task는 여전히 rule-based로 평가하고, 그 외의 분야에 대해서는 인간의 선호와 align 시키도록 helpfulness와 harmlessness에 대해 평가를 수행한다.
여기서는 인간 선호를 반영하기 위한 모델을 reward 모델을 사용했다고 하는데, 구체적으로 어떻게 reward 모델이 인간 선호를 반영했는지는 설명되지 않음. 아마도 RLHF 같은 방식으로 실제 인간의 평가를 반영한 방식일 가능성이 높음.

2.4. Distillation: Empower Small Models with Reasoning Capability

DeepSeek-R1과 같은 reasoning을 능력을 갖는 더 효율적인 더 작은 모델을 장착하기 위해 우리는 DeepSeek-R1을 사용하여 선별된 800k 샘플을 사용하여 Qwen과 Llama 같은 오픈 소스 모델을 직접적으로 fine-tune한다. 상세한 내용은 섹션 2.3.3 참조. 우리의 발견은 이러한 간단한 distillation 방법이 더 작은 모델의 reasoning 능력을 상당히 향상시킬 수 있다는 것이다. 여기서 우리가 사용한 base 모델은 Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B, Llama-3.3-70B-Instruct이다. 우리는 Llama-3.3을 선택하는데, 왜냐하면 이것이 Llama-3.1보다 reasoning 능력이 약간 더 낫기 때문이다.
dilstilling 모델에 대해 RL을 통합하는 것이 모델 성능을 상당히 부스팅 할 수 있음에도 우리는 RL stage를 포함하지 않고 SFT만 적용한다. 여기서 우리의 주요 목표는 distillation 기법의 효율성을 보이는 것이며, RL stage의 탐색은 더 넓은 연구 커뮤니티에게 남긴다.

3. Experiment

Benchmarks 우리는 MMLU, MMLU-Redux, MMLU-Pro, C-Eval and CMMLU, IFEval, FRAMES 등(이하 생략)에 대해 모델을 평가한다. 표준 벤치마크에 추가로 LLM을 judge로 사용하여 우리 모델을 open-ended 생성 작업에 대해 모델을 평가한다. 특히 GPT-4-Turbo-1106을 pairwise 비교에 대해 judge로 활용하는 AlpacaEval 2.0과 Area-Hard의 원래 설정을 준수한다. 여기서 length bias를 피하기 위해 최종 요약만 평가에 제공한다. distilling된 모델에 대해 우리는 AIME 2024, GPQA Diamond, Codeforces, LiveCodeBench에 대해 대표적인 결과를 리포트한다.
Evaluation Prompts DeepSeek-V3에서 설정을 따라 MMLU, DROP, GPQA Diamond와 SimpleQA 같은 표준 벤치마크는 simple-eval 프레임워크에서 프롬프트를 사용하여 평가된다. MMLU-Redux에 대해 zero-shot 설정에서 Zero-Eval prompt 형식을 채택한다. MMLU-Pro, C-Eval와 CLUE-WSC의 측면에서 원래 프롬프트가 few-shot이기 때문에 우리는 프롬프트를 zero-shot 설정으로 약간 수정한다. few-shot에서 CoT가 DeepSeek-R1의 성능에 손상을 줄 수 있다. 다른 데이터셋은 그들의 생성자들에 의해 제공된 default 프롬프트와 함께 원래 평가 프로토콜을 따른다. 코드와 수학 벤치마크에 대해 HumanEval-Mul dataset는 8개 주류 프로그래밍 언어(python, java, c++, c#, javascript, typescript, php, bash)를 커버한다. LiveCodeBench에서 모델 성능은 CoT 형식을 사용하여 평가되며 데이터는 2024년 8월과 2025년 1월 사이에 수집된다. Codeforces 데이터셋은 expert-crafted 테스트 케이스와 함께 10개의 Div.2에서 문제를 사용하여 평가한 후 예상되는 rating과 참가자들의 비율을 계산된다. SWE-Bench verified 결과는 angentless 프레임워크를 통해 얻어진다. AIDER 관련된 벤치마크는 ‘diff’ 포맷을 사용하여 측정된다. 각 벤치마크에 대해 DeepSeek-R1 출력은 최대 32,768 토큰으로 제한된다.
Baselines 우리는 DeepSeek-V3, Claude-Sonnet-3.5-1022, GPT-4o-0513, OpenAI-o1-mini와 OpenAI-o1-1217을 포함한 여러 강력한 baseline에 대해 포괄적인 평가를 구성한다. 중국 본토에서는 OpenAI-o1-1217 API에 접근하는 것이 도전적이기 때문에 우리는 공식 리포트에 기반하여 성능을 리포트한다. distilling 모델에 대해 우리는 오픈소스 모델 QwQ-32B-Preview와 비교한다.
Evaluation Setup 우리는 모델에 대해 최대 생성 길이를 32,768 토큰으로 설정한다. 우리는 long-output reasoning 모델을 평가하도록 greedy decoding 을 사용하면 반복률이 높아지고 여러 checkpoint에서 상당한 변동성이 발생한다는 것을 발견한다. 따라서 기본적으로 pass@k 평가를 사용하고 non-zero temperature를 사용하여 와 pass@1을 리포트한다. 구체적으로 샘플링 temperature 0.60.6와 top-pp value 0.950.95를 사용하여 각 question 당 kk개 응답(일반적으로 test set 크기에 따라 446464 사이)을 생성한다. 그러면 Pass@1은 다음처럼 계산된다.
pass@1=1ki=1kpi\text{pass@1} = {1\over k}\sum_{i=1}^k p_i
여기서 pip_iii-번째 응답의 정확도를 표기한다. 이 방법은 더 신뢰할만한 성능 추정을 제공한다. AIME 2024에 대해 우리는 64개 샘플을 사용하여 cons@64로 표기되는 또한 consensus(majority vote) 결과를 리포트한다.

3.1. DeepSeek-R1 Evaluation

MMLU, MMLU-Pro와 GPQA Diamond, DeepSeek-R1과 같은 교육지향 지식 벤치마크의 경우 DeepSeek-R1은 DeepSeek-V3와 비교하여 우수한 성능을 보인다. 이 개선은 주로 대규모 강화학습을 통해 상당한 이득을 얻은 STEM 관련 질문에서 향상된 정확성에 기인한다. 추가적으로 DeepSeek-R1은 강력한 문서 분석 능력을 보여주는 long-context-dependent QA 작업인 FRAMES에서 우수하다. 이것은 AI-driven 검색과 데이터 분석 작업에서 reasoning 모델의 잠재성을 강조한다. factual 벤치마크 SimpleQA에서 DeepSeek-R1은 DeepSeek-V3를 능가하여 사실 기반 쿼리를 다루는 능력을 시연한다. 유사한 경향이 이 벤치마크에서 OpenAI-o1이 GPT-4o를 능가한 것에서 관찰된다. 그러나 DeepSeek-R1은 Chinese SimpleQA 벤치마크에서 DeepSeek-V3보다 못한데, 주로 safety RL 후에 특정 쿼리에 대한 답변하는 것을 거절하는 경향 때문이다. safety RL 없이 DeepSeek-R1은 70% 이상 정확도를 달성할 수 있다.
DeepSeek-R1은 모델 형식 지침을 따르는 능력을 평가하도록 설계된 벤치마크인 IF-Eval에서 인상적인 결과를 제공한다. 이러한 개선은 supervised fine-tuning(SFT)과 RL 학습의 final stage 동안 instruction-following 데이터가 포함된 것과 관련될 수 있다. 또한 AlpacaEval2.0과 ArenaHard에서 놀라운 성능이 관찰되는데 이것은 writing 작업과 open-domain 질문 답변에서 DeepSeek-R1의 강력함을 나타낸다. 이것은 DeepSeek-V3을 상당히 능가하고 reasoning 능력을 부스팅할 뿐만 아니라 다양한 도메인에 걸쳐 성능을 개선하는 대규모 RL의 일반화 이점을 강조한다. 게다가 DeepSeek-R1에 의해 생성된 요약 길이는 간결한데 평균적으로 ArenaHard에서 689 토큰과 AlpacaEal 2.0에서 2218이다. 이것은 DeepSeek-R1이 GPT기반 평가 중에 길이 bias를 도입하는 것을 피하며 여러 작업에 걸쳐 견고성을 더욱 강화한다는 것을 나타낸다.
수학 작업에서 DeepSeek-R1은 OpenAI-o1-1217과 견주는 성능을 시연하고 다른 모델을 큰 격차로 능가한다. 유사한 경향이 LiveCodeBench와 Codeforces 같은 코딩 알고리즘 작업에서도 관찰된다. 여기서 reasoning 중심 모델이 이러한 벤치마크를 지배한다. 엔지니어링 중심 코딩 작업에서 OpenAI-o1-1217은 Aider에서 DeepSeek-R1을 능가하지만 SWE verified에서 비슷한 성능을 달성한다. 관련된 RL 학습 데이터의 양이 현재 매우 제한적이기 때문에 우리는 DeepSeek-R1의 엔지니어링 성능이 다음 버전에서 개선될 것으로 믿는다.

3.2. Distilled Model Evaluation

Table 5에서 보여진 대로 DeepSeek-R1의 출력을 간단히 distilling하면 효율적인 DeepSeek-R1-7B(즉 DeepSeek-R1-Distill-Qwen-7B, 이하에서 줄여쓴다)가 GPT-4o-0513과 같은 non-reasnoning 모델을 전반적으로 능가한다. DeepSeek-R1-14B는 모든 평가 메트릭에서 QwQ-32B-Preview를 능가하고 DeepSeek-R1-32B와 DeepSeek-R1-70B는 대부분의 벤치마크에서 o1-mini를 초과한다. 이러한 결과는 distillation의 강력한 잠재력을 시연한다. 추가적으로 우리는 이러한 distilling 모델에 RL을 적용하면 추가 이득을 상당히 얻을 수 있다는 것을 발견했다. 우리는 이것이 추가 탐색을 보증한다고 믿으므로 여기서는 간단한 SFT-distilling 모델의 결과만 제시한다.

4. Discussion

4.1. Distillation v.s. Reinforcement Learning

섹션 3.2에서 DeepSeek-R1을 distilling하여 작은 모델이 인상적인 결과를 달성할 수 있음을 보았다. 그러나 여전히 한 가지 질문이 남는다. distilling 없이 논문에서 논의한 대규모 RL 학습을 통해 비교할만한 성능을 달성할 수 있을까?
이 질문에 답변하기 위해 우리는 수학, 코드, STEM 데이터를 사용하여 Qwen-32B-Base에 대한 대규모 RL 학습을 10K step동안 수행하여 DeepSeek-R1-Zero-Qwen-32B를 얻는다. 실험적인 결과는 Table 6에 보여진다. 32B base 모델은 대규모 RL 학습 후에 QwQ-32B-preview와 견줄만한 성능을 달성하는 것을 보인다. 그러나 DeepSeek-R1에서 distilling된 DeepSeek-R1-Distill-Qwen-32B은 모든 벤치마크에서 DeepSeek-R1-Zero-Qwen-32B를 상당히 능가한다.
그러므로 우리는 2가지 결론을 내릴 수 있다. 첫째, 더 강력한 모델을 더 작은 것으로 distilling하면 훌륭한 결과를 산출한다. 반면 이 논문에서 언급한 대규모 RL에 의존하는 더 작은 모델은 막대한 계산 파워가 필요하고 심지어 distillation의 성능에 도달하지 않을 수 있다. 둘째, distilling 전략은 경제적이고 효율이지만, 지능의 경계를 넘어 진보하려면 여전히 더 강력한 base model과 더 큰 강화학습이 필요하다.

4.2. Unsuccessful Attempts

DeepSeek-R1을 개발하는 초기 단계에서 우리는 실패와 좌절을 마주했다. 이것은 효율적인 reasoning 모델을 개발할 수 없다는 것을 암시하지 않지만, 우리는 통찰을 제공하기 위해 여기서 실패 경험을 공유한다.
Process Reward Model (PRM) PRM은 모델을 reasoning 작업을 해결하기 위한 더 나은 접근 방향으로 가이드하는 합리적인 방법이다. 그러나 실제에서 PRM은 궁극적인 성공을 방해할 수 있는 3가지 주요 한계를 갖는다. 첫째, 이것은 general reasoning에서 fine-grain step을 명시적으로 정의하는게 어렵다. 둘째, 현재 중간 단계가 올바른지 여부를 결정하는 것이 어려운 작업이다. 모델을 사용한 자동 주석은 만족스러운 결과를 산출하지 않을 수 있고 수작업 주석은 스케일 확장에 도움이 되지 않는다. 셋째, model 기반 PRM을 도입하면, 필연적으로 reward hacking이 발생하며, 리워드 모델을 재학습하려면 추가 학습 자원이 필요하고 전체 학습 파이프라인이 복잡해진다. 결론적으로 PRM은 모델에서 생성된 top-N 응답을 재정렬하거나 가이드된 탐색을 지원하는데 좋은 능력을 시연하지만 이것은 우리의 실험에서 대규모 강화학습 프로세스 동안 추가 계산적 오버헤드와 비교하여 장점이 제한적이다.
Monte Carlo Tree Search (MCTS) AlphaGo와 AlphaZero에 의해 영감 받아 우리는 test-time 계산 확장성을 향상시키기 위해 Monte Carlo Tree Search(MCTS)를 사용을 탐구한다. 이 접근은 모델이 해답 공간을 시스템적으로 탐색할 수 있도록 답변을 더 작은 부분으로 쪼개는 것을 포함한다. 이것을 용이하게 하기 위해 우리는 탐색을 위해 필요한 특정한 reasoning step에 해당하는 여러 tag를 생성하도록 모델에 프롬프트 한다. 학습을 위해 우선 수집된 프롬프트를 사용하여 사전 학습된 value 모델에 의해 가이드된 MCTS를 통해 답변을 탐색한다. 이어서 우리는 질문-답변 쌍 결과를 사용하여 actor 모델과 value 모델 모두를 학습하고 프로세스를 반복적으로 정제한다.
그러나 이러한 접근은 학습 스케일을 확장할 때 여러 도전을 마주한다. 우선 탐색 공간이 상대적으로 잘 정의된 체스와 달리 토큰 생성은 지수적으로 더 큰 탐색 공간을 제시한다. 이것을 해결하기 위해 우리는 각 노드에 대해 최대 확장 한계를 설정하지만 이것은 모델이 지역 최적에 빠질 수 있다. 둘째, value 모델은 탐색 프로세스의 각 step을 가이드하기 때문에 직접적으로 생성의 품질에 영향을 미친다. fine-grained value 모델을 학습하는 것은 본질적으로 어렵기 때문에 모델을 반복적으로 개선하는 것을 어렵게 만든다. 반면 AlphaGo의 핵심 성공은 value 모델을 학습하여 성능을 반복적으로 향상시키는 것에 의존하는데, 이러한 원칙은 토큰 생성의 복잡성 때문에 우리의 설정으로 복제되기 어렵다.
결론적으로 MCTS는 사전 학습된 value 모델과 쌍을 이룰 때 inference 동안 성능을 개선시킬 수 있지만, self-search를 통해 모델 성능을 반복적으로 부스팅하는 것은 상당한 도전으로 남는다.

5. Conclusion, Limitations, and Future Work

이 연구에서 우리는 강화 학습을 통해 모델 reasoning 능력을 향상시키는 우리의 여정을 공유한다. DeepSeek-R1-Zero는 cold-start 데이터에 의존하지 않고 다양한 작업에 걸쳐 강력한 성능을 달성하는 순수한 RL 접근을 나타낸다. DeepSeek-R1은 반복적인 RL fine-tuning에 cold-start 데이터를 활용더 강력하다. 궁극적으로 DeepSeek-R1은 여러 작업 범위에서 OpenAI-o1-1217과 비교할만한 성능을 달성한다.
우리는 추가로 reasoning 능력을 작은 dense 모델로 distillation 하는 것을 탐구한다. 우리는 DeepSeek-R1을 teacher 모델로 사용하여 800K 학습 샘플을 생성하고 여러 작은 dense 모델을 fine-tune 한다. 결과는 유망하다. DeepSeek-R1-Distill-Qwen-1.5B는 AIME에서 28.9%, MATH에서 83.9%로 수학 벤치마크에서 GPT-4o와 Claude-3.5-Sonnet을 능가한다. 다른 dense 모델 또한 인상적인 결과를 달성하여 동일한 기본 checkpoint에 기반한 다른 nstruction-tuned 모델을 상당히 능가한다.
미래에 우리는 DeepSeek-R1을 위해 다음의 방향으로 연구에 투자할 계획이다.
General Capability: 현재 DeepSeek-R1의 능력은 함수 calling, multi-turn, 복잡한 role-playing과 JSON 출력 같은 작업에서 DeepSeek-V3에 미치지 못한다. 앞으로 long CoT를 활용하여 이러한 분야의 작업을 향상시킬 수 있는 방법을 탐구할 계획이다.
Language Mixing: DeepSeek-R1은 현재 중국어와 영어에 최적화 되어 있으므로 다른 언어들에서 쿼리를 다룰 때 language mixing 이슈가 발생할 수 있다. 예를 들어 DeepSeek-R1은 쿼리가 영어나 중국어가 아닌 다른 언어로 되어 있어도 reasoning과 response에 대해 영어를 사용할 수 있다. 우리는 미래 업데이트에서 이 한계를 해결하는데 초점을 맞춘다.
Prompting Engineering: 우리는 DeepSeek-R1을 평가할 때, 프롬프트에 민감하다는 것을 관찰한다. Few-shot 프롬프팅은 성능을 지속적으로 떨어뜨린다. 그러므로 사용자들이 문제를 직접 설명하고 최적 결과를 위해 zero-shot 설정을 사용하여 출력 형식을 지정하는 것을 추천한다.
Software Engineering Tasks: RL 프로세스의 효율성에 영향을 미치는 긴 평가 시간 때문에 대규모 RL은 소프트웨어 엔지니어링 작업에서 널리 적용되지 않았다. 결과적으로 DeepSeek-R1은 소프트웨어 엔지니어링 벤치마크에서 DeepSeek-V3에 대해 큰 개선을 보이지 못했다. 미래 버전에서는 소프트웨어 엔지니어링 데이터에 대해 rejection 샘플링을 구현하거나 RL 프로세스 동안 비동기 평가를 통합하여 효율성을 개선함으로써 이문제를 해결할 것이다.