:)

[NLP/Prompting] Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 본문

Paper Review

[NLP/Prompting] Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

andre99 2025. 2. 7. 09:11

Abstract

  • 대형 언어 모델이 문제를 해결할 때 중간 단계를 생성하고 설명하는 방법을 연구
  • Chain-of-Thought란?
    • 문제 해결의 단계 : 일반적으로, 복잡한 문제를 해결할 때는 여러 단계를 거쳐야 한다. 이 논문에서는 모델이 문제를 해결할 때 이러한 중간 단계를 스스로 만들어내는 방법을 연구한다.
    • Chain-of-Thought Prompting : 모델에게 중간 단계를 설명하는 예시를 보여주는 방법 → 모델이 더 정확하게 문제 해결 가능
  • 실험 결과
    • 세 가지 대형 언어 모델을 사용하여 Chain-of-Thought Prompting이 얼마나 효과적인지 실험
    • 단 8개의 예시만으로도 모델이 문제를 더 잘 풀 수 있다는 것을 보여주었다. PaLM 540B라는 모델이 아주 높은 정확도로 문제를 해결했으며, 기존의 모델보다 더 좋은 성과를 보였다.

Introduction

  • 단순히 모델의 크기만 증가시키는 것으로는 복잡한 문제를 해결하는 데 한계가 있다.
  • 자연어 추론의 중요성:
    • 자연어로 된 이유 설명: 수학 문제를 푸는 데 있어, 자연어로 중간 계산 과정을 설명하는 것이 모델의 성능에 도움이 됨.
  • 프롬프트를 통한 학습:
    • Few-shot Learning: 새로운 작업을 위해 별도의 모델을 훈련시키는 대신, 모델에 몇 개의 예시를 제공하여 작업을 수행하도록 유도할 수 있다. 이는 특히 간단한 질문-답변 작업에 성공적. ⇒ 복잡한 추론 작업에는 효과 X, 모델의 크기를 키우는 것만으로는 성능이 크게 향상 X.
  • Chain-of-Thought Prompting: 모델에게 입력, 중간 추론 단계, 최종 출력을 포함한 예시를 제공하는 방식. 모델이 문제를 해결하기 위해 자연어로 중간 단계를 설명하면서 최종 답 도출 가능.
  • 실험 결과
    • 성능 향상: Chain-of-Thought Prompting이 산술, 상식, 기호적 추론 벤치마크에서 표준 프롬프트 방식보다 뛰어난 성과. 특히, PaLM 540B 모델을 사용한 GSM8K 수학 문제 벤치마크에서, Chain-of-Thought Prompting이 표준 프롬프트 방식보다 월등히 높은 성과를 나타냈다.
  • Chain-of-Thought Prompting은 대규모 훈련 데이터셋이 필요 X, 하나의 모델로 다양한 작업을 수행할 수 있다.

Chain-of-Thought Prompting

  • 방법
    • 문제 분해:
      • 중간 단계 설명: 모델은 복잡한 문제를 풀기 위해 문제를 여러 중간 단계로 나누어 해결.
      • 중간 단계 제공: Chain-of-Thought Prompting은 이러한 중간 단계를 자연어로 제공하여 모델이 문제를 단계적으로 해결.
    • 사례 제공 : 모델이 이러한 중간 단계를 생성하도록 유도하기 위해, 몇 가지 예시를 프롬프트로 제공

Arithmetic Reasoning

  • 결과
  • 모델 규모와 성능: 모델 규모가 커질수록 성능 향상. 작은 모델에서는 일관되지 않은 추론을 생성하여 성능이 떨어짐.
  • 문제의 복잡성: 더 복잡한 문제에서는 성능 향상 큼.
  • Chain-of-Thought: 문제 해결을 위한 단계별 추론을 모델이 어떻게 사용하는지 분석

Commonsense Reasoning

  • 다양한 상식 추론 유형을 다루는 다섯 개의 데이터셋을 사용
  • 결과
    • PaLM 540B에서 개선 효과 큼
    • chain-of-thought prompting를 사용한 PaLM 540B는 기준 성능을 능가

Symbolic Reasoning

  • Task
    • Last letter concatenation
    • Coin flip
  • 결과
    • in-domain 테스트: PaLM 540B 모델의 경우, 체인 오브 시스 프롬프트를 사용하면 거의 100%의 해결. 작은 모델들은 여전히 실패.
    • OOD 테스트: 언어 모델이 길이의 일반화 가능, in-domain 설정보다는 성능 낮음.

Discussion

  • 성능 향상:
    • 산술적 추론: 산술 문제에서 성능이 크게 향상되며, 다양한 모델과 예시에 대해 일관되게 좋은 성과.
    • 상식적 추론: chain-of-thought prompting의 언어적 특성 덕분에 상식 추론과 같은 다양한 작업에 일반적으로 적용될 수 있음.
    • 기호적 추론: 길어진 시퀀스 길이에 대한 일반화.
  • 모델 규모와의 관계:
    • 모델 규모: chain-of-thought prompting는 모델의 크기가 커짐에 따라 효과가 커지며, 이는 기존의 표준 프롬프트가 모델의 능력을 제한적으로만 보여주는 것과 대조된다.
  • 제한점:
    • 모델의 실제 추론 여부: 실제로 모델이 '추론'을 하고 있는지 여부는 여전히 미해결 과제.
    • 비용: 대규모 모델의 파인튜닝에는 비용이 많이 들 수 있습니다. 이 문제는 합성 데이터 생성이나 제로샷 일반화로 해결할 가능성이 있다.
    • 정확성: 체인 오브 시스 프롬프트가 항상 올바른 추론 경로를 보장하지는 않음
    • 모델 규모의 한계: 대형 모델에서만 효과적이므로, 실제 응용에서의 비용 문제 있음

Conclusions

  • 모델 규모 : chain-of-thought prompting 대형 언어 모델에서 효과적.
  • 성능 향상 : 대형 모델은 GSM8K와 같은 벤치마크에서 최첨단 성능을 달성하며, 성능 크게 향상.