[NLP/Prompting] Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

Tags more

관리 메뉴

:)

Paper Review

andre99 2025. 2. 7. 09:11

대형 언어 모델이 문제를 해결할 때 중간 단계를 생성하고 설명하는 방법을 연구
Chain-of-Thought란?
- 문제 해결의 단계 : 일반적으로, 복잡한 문제를 해결할 때는 여러 단계를 거쳐야 한다. 이 논문에서는 모델이 문제를 해결할 때 이러한 중간 단계를 스스로 만들어내는 방법을 연구한다.
- Chain-of-Thought Prompting : 모델에게 중간 단계를 설명하는 예시를 보여주는 방법 → 모델이 더 정확하게 문제 해결 가능
실험 결과
- 세 가지 대형 언어 모델을 사용하여 Chain-of-Thought Prompting이 얼마나 효과적인지 실험
- 단 8개의 예시만으로도 모델이 문제를 더 잘 풀 수 있다는 것을 보여주었다. PaLM 540B라는 모델이 아주 높은 정확도로 문제를 해결했으며, 기존의 모델보다 더 좋은 성과를 보였다.

단순히 모델의 크기만 증가시키는 것으로는 복잡한 문제를 해결하는 데 한계가 있다.
자연어 추론의 중요성:
- 자연어로 된 이유 설명: 수학 문제를 푸는 데 있어, 자연어로 중간 계산 과정을 설명하는 것이 모델의 성능에 도움이 됨.
프롬프트를 통한 학습:
- Few-shot Learning: 새로운 작업을 위해 별도의 모델을 훈련시키는 대신, 모델에 몇 개의 예시를 제공하여 작업을 수행하도록 유도할 수 있다. 이는 특히 간단한 질문-답변 작업에 성공적. ⇒ 복잡한 추론 작업에는 효과 X, 모델의 크기를 키우는 것만으로는 성능이 크게 향상 X.
Chain-of-Thought Prompting: 모델에게 입력, 중간 추론 단계, 최종 출력을 포함한 예시를 제공하는 방식. 모델이 문제를 해결하기 위해 자연어로 중간 단계를 설명하면서 최종 답 도출 가능.
실험 결과
- 성능 향상: Chain-of-Thought Prompting이 산술, 상식, 기호적 추론 벤치마크에서 표준 프롬프트 방식보다 뛰어난 성과. 특히, PaLM 540B 모델을 사용한 GSM8K 수학 문제 벤치마크에서, Chain-of-Thought Prompting이 표준 프롬프트 방식보다 월등히 높은 성과를 나타냈다.
Chain-of-Thought Prompting은 대규모 훈련 데이터셋이 필요 X, 하나의 모델로 다양한 작업을 수행할 수 있다.

방법
- 문제 분해:
  - 중간 단계 설명: 모델은 복잡한 문제를 풀기 위해 문제를 여러 중간 단계로 나누어 해결.
  - 중간 단계 제공: Chain-of-Thought Prompting은 이러한 중간 단계를 자연어로 제공하여 모델이 문제를 단계적으로 해결.
- 사례 제공 : 모델이 이러한 중간 단계를 생성하도록 유도하기 위해, 몇 가지 예시를 프롬프트로 제공

Task
- Last letter concatenation
- Coin flip
결과
- in-domain 테스트: PaLM 540B 모델의 경우, 체인 오브 시스 프롬프트를 사용하면 거의 100%의 해결. 작은 모델들은 여전히 실패.
- OOD 테스트: 언어 모델이 길이의 일반화 가능, in-domain 설정보다는 성능 낮음.

성능 향상:
- 산술적 추론: 산술 문제에서 성능이 크게 향상되며, 다양한 모델과 예시에 대해 일관되게 좋은 성과.
- 상식적 추론: chain-of-thought prompting의 언어적 특성 덕분에 상식 추론과 같은 다양한 작업에 일반적으로 적용될 수 있음.
- 기호적 추론: 길어진 시퀀스 길이에 대한 일반화.
모델 규모와의 관계:
- 모델 규모: chain-of-thought prompting는 모델의 크기가 커짐에 따라 효과가 커지며, 이는 기존의 표준 프롬프트가 모델의 능력을 제한적으로만 보여주는 것과 대조된다.
제한점:
- 모델의 실제 추론 여부: 실제로 모델이 '추론'을 하고 있는지 여부는 여전히 미해결 과제.
- 비용: 대규모 모델의 파인튜닝에는 비용이 많이 들 수 있습니다. 이 문제는 합성 데이터 생성이나 제로샷 일반화로 해결할 가능성이 있다.
- 정확성: 체인 오브 시스 프롬프트가 항상 올바른 추론 경로를 보장하지는 않음
- 모델 규모의 한계: 대형 모델에서만 효과적이므로, 실제 응용에서의 비용 문제 있음

[Robotics/LLM] E2Map: Experience-and-Emotion Map for Self-Reflective Robot Navigation with Language Models (0)	2025.03.04
[Gen AI/Motion] AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning (0)	2025.02.09
[NLP/Pre-training] Improving Language Understanding by Generative Pre-Training (0)	2025.02.07
[NLP/Transformer] Attention Is All You Need (0)	2025.02.01
[NLP/Seq2Seq] Sequence to Sequence Learningwith Neural Networks (0)	2025.02.01

'Paper Review' Related Articles