:)

[LLM] DeepSeekMath 본문

Paper Review

[LLM] DeepSeekMath

andre99 2025. 4. 2. 10:31

1. 개요

  • DeepSeek MATH: 수학적 추론 능력을 극대화하기 위해 개발된 오픈소스 AI 모델
  • DeepSeek-Coder-Base-v1.5 7B를 기반으로 학습
  • 자연어 데이터 뿐만 아니라 수학 관련 데이터와 코드 데이터를 추가 학습해 정확도 향상 </aside>

2. Contribution

Math Pre-Training at Scale 대규모 수학 사전 학습

  • Common Crawl에서 120B 토큰 규모의 수학 데이터(DeepSeekMath Corpus) 생성 (Minerva의 7배)
  • DeepSeekMath-Base 7B가 Minerva 540B와 유사한 성능 → 모델 크기보다 데이터 품질이 중요함을 증명.
  • 코드 학습의 효과 확인: 코드 학습 후 수학 학습을 진행하면 문제 해결 및 도구 활용 능력 향상
  • arXiv 데이터 학습은 성능 개선 효과 없음.

강화 학습 기법 분석 및 개선

  • 기존 PPO 대비 메모리 효율성이 뛰어나면서도 성능 향상.
  • DeepSeekMath-Instruct 모델 성능 개선 (MATH 46.8% → 51.7%).
  • RFT, DPO, PPO, GRPO 등의 기법을 통합적으로 분석 ⇒ 효과적인 강화 학습 기법 개발을 위한 방향성 제안.

3. 데이터 수집 및 정제

DeepSeek MATH의 학습을 위해 방대한 수학 관련 데이터를 체계적으로 수집하는 파이프라인을 활용함. 이는 Common Crawl 데이터를 활용해 구성됨.

  1. FastText 모델 학습: 수학과 관련된 웹페이지를 필터링하기 위한 기초 모델 훈련
  2. 수학 관련 웹페이지 검색: Common Crawl에서 수학 관련 콘텐츠를 검색해 수집
  3. 수학 관련 도메인 발견: 데이터 정제를 통해 실제로 수학과 관련성이 높은 도메인을 식별
  4. URL 주석 추가: 레이블러를 활용해 수학 관련 URL을 선별하고 주석을 추가

⇒ 이 과정을 반복해 점점 더 정제된 대규모 수학 데이터셋 구축.

4. Supervised Fine-Tuning

  • DeepSeekMath의 SFT데이터셋: 영어 및 중국어 수학 문제를 포함 & 다양한 수학 분야 및 난이도를 반영함.
  • Chain-of-Thought(CoT), Program-of-Thought(PoT), 툴 기반 추론 형식의 문제 풀이 방법을 학습 → 단계별 논리적 사고력 강화
  • MATH 벤치마크에서 모든 오픈소스 모델을 능가 & 코드 기반 도구 활용 시 정확도 60%를 기록. </aside>

데이터셋 구성

  • 총 776K 개의 문제를 학습 데이터로 활용.
  • 영어 데이터셋: GSM8K, MATH, MathInstruct, Lila-OOD 등, 다양한 난이도의 문제를 포함.
  • 중국어 데이터셋: K-12 수학 문제 76개 세부 주제 포함.

모델 학습

  • 훈련 세부 사항:
    • 최대 컨텍스트 길이: 4K 토큰
    • 학습 스텝: 500 스텝
    • 배치 크기: 256
    • 학습률: 5e-5
  • 평가 방법:
    • 영어 및 중국어 4개 수량적 추론 벤치마크에서 성능 평가.
    • 도구 사용 여부에 따라 두 가지 설정(비도구 평가 vs. 도구 활용 평가)에서 비교.

성능 비교

  • 비도구 설정 평가
    • MATH 벤치마크에서 오픈소스 모델 및 일부 폐쇄형 모델(Gemini Pro, Inflection-2) 대비 최소 9% 높은 성능을 기록.
    • Qwen 72B 및 WizardMath 7B 등 대형 모델과 비교해도 높은 성과를 보임.
  • 도구 사용 설정 평가
    • 코드 기반 도구 활용 시 MATH 벤치마크에서 정확도 60% 달성.
    • 기존 모든 오픈소스 모델을 능가하는 성능.
    • DeepSeek-LLM-Chat 67B(이전 SOTA 모델)와 경쟁할 정도의 높은 정확도 기록.

5. Reinforcement Learning

  • PPO 대비 효율적인 GRPO (Group Relative Policy Optimization) 알고리즘을 통해 계산량을 줄이면서도 성능 향상.
  • Outcome Supervision + Process Supervision으로 정답 기반 학습과 단계별 학습을 병행.
  • Iterative RL을 통해 보상 모델을 지속적으로 개선.

1) 강화 학습 → 수학적 추론 능력 향상

  • Supervised Fine-Tuning 후 RL을 적용하면 수학적 추론 능력이 크게 향상됨.
  • DeepSeekMath-RL 7B 모델은 모든 7B~70B급 오픈소스 모델을 능가 & 일부 폐쇄형 모델보다도 높은 성능을 보임.
  • 특히 GSM8K(88.2%) 및 MATH(51.7%) 벤치마크에서 최고의 성능 기록.

2) GRPO 적용

  • GRPO: 기존 PPO와 달리 별도의 Value Function없이 그룹 평균 보상을 활용해 메모리 사용량과 계산 비용 절감.
  • 기존 PPO처럼 KL Penalty를 보상에 추가하는 대신 직접 손실 함수에 KL Divergence를 포함해 안정적인 학습 가능. ⇒ 추가적인 보상 모델을 학습할 필요 없이 계산량 줄일 수 있음.
    • KL Divergence: 두 확률 분포 간의 차이를 측정
    • KL Penalty: 모델이 기존 정책에서 너무 멀어지는 것을 방지하기 위해 KL 다이버전스를 이용해 적용하는 규제 방식
  • GRPO 적용 후 수학적 추론뿐만 아니라 Out-of-Domain(일반적인 문제) 해결 능력 성능까지 향상됨.

3) Outcome Supervision 및 Process Supervision 도입

  • Outcome Supervision: 최종 정답에 대한 보상을 기반으로 학습하여 정책 모델의 성능 향상.
  • Process Supervision: 각 단계별 보상을 제공해 세밀한 학습이 가능하도록 개선.

4) Iterative RL 적용

  • 강화 학습 진행 중에도 보상 모델을 지속적으로 개선→ 최신 정책 모델을 더 효과적으로 학습하도록 함.
  • 과거 데이터를 일부 유지해 새로운 학습 데이터와 함께 활용하는 Replay Mechanism 도입.

5) 성능 검증

  • 적은 데이터만으로도 강화 학습을 통해 성능 향상됨.
  • Chain-of-Thought(CoT) 학습만 사용했음에도 일반적인 벤치마크에서도 성능 개선 확인.

6. 결론

  • GRPO 적용 → 기존 PPO 대비 메모리 효율성이 높고 성능 향상 가능
  • 모델의 한계점
    • 기하학 및 정리 증명(삼각형, 타원 문제)에서 상대적으로 약함 → 데이터 편향 가능성.
    • Few-shot 학습 성능이 GPT-4 대비 낮아 zero-shot 및 few-shot 환경에서 한계 존재.