[LLM] DeepSeekMath

Tags more

Today

Total

관리 메뉴

:)

[LLM] DeepSeekMath 본문

Paper Review

[LLM] DeepSeekMath

andre99 2025. 4. 2. 10:31

1. 개요

DeepSeek MATH: 수학적 추론 능력을 극대화하기 위해 개발된 오픈소스 AI 모델
DeepSeek-Coder-Base-v1.5 7B를 기반으로 학습
자연어 데이터 뿐만 아니라 수학 관련 데이터와 코드 데이터를 추가 학습해 정확도 향상 </aside>

2. Contribution

Math Pre-Training at Scale 대규모 수학 사전 학습

Common Crawl에서 120B 토큰 규모의 수학 데이터(DeepSeekMath Corpus) 생성 (Minerva의 7배)
DeepSeekMath-Base 7B가 Minerva 540B와 유사한 성능 → 모델 크기보다 데이터 품질이 중요함을 증명.
코드 학습의 효과 확인: 코드 학습 후 수학 학습을 진행하면 문제 해결 및 도구 활용 능력 향상
arXiv 데이터 학습은 성능 개선 효과 없음.

강화 학습 기법 분석 및 개선

기존 PPO 대비 메모리 효율성이 뛰어나면서도 성능 향상.
DeepSeekMath-Instruct 모델 성능 개선 (MATH 46.8% → 51.7%).
RFT, DPO, PPO, GRPO 등의 기법을 통합적으로 분석 ⇒ 효과적인 강화 학습 기법 개발을 위한 방향성 제안.

3. 데이터 수집 및 정제

DeepSeek MATH의 학습을 위해 방대한 수학 관련 데이터를 체계적으로 수집하는 파이프라인을 활용함. 이는 Common Crawl 데이터를 활용해 구성됨.

FastText 모델 학습: 수학과 관련된 웹페이지를 필터링하기 위한 기초 모델 훈련
수학 관련 웹페이지 검색: Common Crawl에서 수학 관련 콘텐츠를 검색해 수집
수학 관련 도메인 발견: 데이터 정제를 통해 실제로 수학과 관련성이 높은 도메인을 식별
URL 주석 추가: 레이블러를 활용해 수학 관련 URL을 선별하고 주석을 추가

⇒ 이 과정을 반복해 점점 더 정제된 대규모 수학 데이터셋 구축.

4. Supervised Fine-Tuning

DeepSeekMath의 SFT데이터셋: 영어 및 중국어 수학 문제를 포함 & 다양한 수학 분야 및 난이도를 반영함.
Chain-of-Thought(CoT), Program-of-Thought(PoT), 툴 기반 추론 형식의 문제 풀이 방법을 학습 → 단계별 논리적 사고력 강화
MATH 벤치마크에서 모든 오픈소스 모델을 능가 & 코드 기반 도구 활용 시 정확도 60%를 기록. </aside>

데이터셋 구성

총 776K 개의 문제를 학습 데이터로 활용.
영어 데이터셋: GSM8K, MATH, MathInstruct, Lila-OOD 등, 다양한 난이도의 문제를 포함.
중국어 데이터셋: K-12 수학 문제 76개 세부 주제 포함.

모델 학습

훈련 세부 사항:
- 최대 컨텍스트 길이: 4K 토큰
- 학습 스텝: 500 스텝
- 배치 크기: 256
- 학습률: 5e-5
평가 방법:
- 영어 및 중국어 4개 수량적 추론 벤치마크에서 성능 평가.
- 도구 사용 여부에 따라 두 가지 설정(비도구 평가 vs. 도구 활용 평가)에서 비교.

성능 비교

비도구 설정 평가
- MATH 벤치마크에서 오픈소스 모델 및 일부 폐쇄형 모델(Gemini Pro, Inflection-2) 대비 최소 9% 높은 성능을 기록.
- Qwen 72B 및 WizardMath 7B 등 대형 모델과 비교해도 높은 성과를 보임.
도구 사용 설정 평가
- 코드 기반 도구 활용 시 MATH 벤치마크에서 정확도 60% 달성.
- 기존 모든 오픈소스 모델을 능가하는 성능.
- DeepSeek-LLM-Chat 67B(이전 SOTA 모델)와 경쟁할 정도의 높은 정확도 기록.

5. Reinforcement Learning

PPO 대비 효율적인 GRPO (Group Relative Policy Optimization) 알고리즘을 통해 계산량을 줄이면서도 성능 향상.
Outcome Supervision + Process Supervision으로 정답 기반 학습과 단계별 학습을 병행.
Iterative RL을 통해 보상 모델을 지속적으로 개선.

1) 강화 학습 → 수학적 추론 능력 향상

Supervised Fine-Tuning 후 RL을 적용하면 수학적 추론 능력이 크게 향상됨.
DeepSeekMath-RL 7B 모델은 모든 7B~70B급 오픈소스 모델을 능가 & 일부 폐쇄형 모델보다도 높은 성능을 보임.
특히 GSM8K(88.2%) 및 MATH(51.7%) 벤치마크에서 최고의 성능 기록.

2) GRPO 적용

GRPO: 기존 PPO와 달리 별도의 Value Function없이 그룹 평균 보상을 활용해 메모리 사용량과 계산 비용 절감.
기존 PPO처럼 KL Penalty를 보상에 추가하는 대신 직접 손실 함수에 KL Divergence를 포함해 안정적인 학습 가능. ⇒ 추가적인 보상 모델을 학습할 필요 없이 계산량 줄일 수 있음.
- KL Divergence: 두 확률 분포 간의 차이를 측정
- KL Penalty: 모델이 기존 정책에서 너무 멀어지는 것을 방지하기 위해 KL 다이버전스를 이용해 적용하는 규제 방식
GRPO 적용 후 수학적 추론뿐만 아니라 Out-of-Domain(일반적인 문제) 해결 능력 성능까지 향상됨.

3) Outcome Supervision 및 Process Supervision 도입

Outcome Supervision: 최종 정답에 대한 보상을 기반으로 학습하여 정책 모델의 성능 향상.
Process Supervision: 각 단계별 보상을 제공해 세밀한 학습이 가능하도록 개선.

4) Iterative RL 적용

강화 학습 진행 중에도 보상 모델을 지속적으로 개선→ 최신 정책 모델을 더 효과적으로 학습하도록 함.
과거 데이터를 일부 유지해 새로운 학습 데이터와 함께 활용하는 Replay Mechanism 도입.

5) 성능 검증

적은 데이터만으로도 강화 학습을 통해 성능 향상됨.
Chain-of-Thought(CoT) 학습만 사용했음에도 일반적인 벤치마크에서도 성능 개선 확인.

6. 결론

GRPO 적용 → 기존 PPO 대비 메모리 효율성이 높고 성능 향상 가능
모델의 한계점
- 기하학 및 정리 증명(삼각형, 타원 문제)에서 상대적으로 약함 → 데이터 편향 가능성.
- Few-shot 학습 성능이 GPT-4 대비 낮아 zero-shot 및 few-shot 환경에서 한계 존재.

'Paper Review' 카테고리의 다른 글

[Gen AI] FluxSpace: Disentangled Semantic Editing in Rectified Flow Transformers (0)	2025.04.14
[RL] Unsupervised Skill Discovery for Learning Shared Structures across Changing Environments (0)	2025.03.25
[LLM] LoRA: Low-Rank Adaptation of Large Language Models (0)	2025.03.13
[Robotics] E2Map: Experience-and-Emotion Map for Self-Reflective Robot Navigation with Language Models (0)	2025.03.04
[Gen AI] AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning (0)	2025.02.09

'Paper Review' Related Articles

:)

[LLM] DeepSeekMath 본문

[LLM] DeepSeekMath

1. 개요

2. Contribution

3. 데이터 수집 및 정제

4. Supervised Fine-Tuning

5. Reinforcement Learning

6. 결론

'Paper Review' 카테고리의 다른 글

티스토리툴바