'NLP' 태그의 글 목록

Tags more

Today

Total

관리 메뉴

목록NLP (5)

:)

[LLM/Fine-tuning] LoRA: Low-Rank Adaptation of Large Language Models

AbstractLoRA: Fine-tuning 비용 & 메모리 문제 해결 방법장점모델 저장 공간 절약 & Task 전환 용이 → 작은 LoRA 모듈만 저장하면 됨학습 효율 증가 → Gradient 저장 불필요, 하드웨어 요구량 3배 절감추론 속도 유지 → 기존 Fine-tuned 모델과 동일한 속도다른 방법과 병행 가능 → Prefix-tuning 등과 조합 가능Introduction연구 배경사전 학습된 LLM은 다양한 다운스트림 작업에 적응 필요.기존 Fine-tuning 방식은 모든 파라미터를 업데이트해야 하므로 비효율적모델 크기가 클수록 비용 증가추론 속도 저하 및 사용 가능한 시퀀스 길이 감소성능 저하와 효율성 사이의 트레이드오프 발생LoRA (Low-Rank Adaptation) 개념LLM의 가..

Paper Review 2025. 3. 13. 20:48

[NLP/Prompting] Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

Abstract대형 언어 모델이 문제를 해결할 때 중간 단계를 생성하고 설명하는 방법을 연구Chain-of-Thought란?문제 해결의 단계 : 일반적으로, 복잡한 문제를 해결할 때는 여러 단계를 거쳐야 한다. 이 논문에서는 모델이 문제를 해결할 때 이러한 중간 단계를 스스로 만들어내는 방법을 연구한다.Chain-of-Thought Prompting : 모델에게 중간 단계를 설명하는 예시를 보여주는 방법 → 모델이 더 정확하게 문제 해결 가능실험 결과세 가지 대형 언어 모델을 사용하여 Chain-of-Thought Prompting이 얼마나 효과적인지 실험단 8개의 예시만으로도 모델이 문제를 더 잘 풀 수 있다는 것을 보여주었다. PaLM 540B라는 모델이 아주 높은 정확도로 문제를 해결했으며, 기존의..

Paper Review 2025. 2. 7. 09:11

[NLP/Pre-training] Improving Language Understanding by Generative Pre-Training

Abstract자연어 이해는 텍스트 수반, 질문 답변, 의미적 유사성 평가, 문서 분류와 같은 다양한 작업으로 구성.텍스트 자료는 많이 있지만, 이 자료들을 특정한 작업에 맞게 사용할 수 있도록 레이블링된 자료는 많지 않음. 이렇게 레이블링된 자료가 부족하기 때문에, 어떤 특정한 일을 잘 수행할 수 있도록 학습된 모델이 제대로 성능을 내기가 어려움.이 논문은 레이블이 없는 다양한 텍스트를 이용해 먼저 언어 모델을 생성적으로 사전 학습시킨 다음, 이 모델을 각기 다른 특정 작업에 맞게 미세 조정시키면, 해당 작업들을 훨씬 더 잘 수행할 수 있다는 것을 보여줌.이전 접근 방식과 달리, 모델 구조를 거의 바꾸지 않고도 작업에 맞는 입력 변환을 사용해 효과적으로 학습할 수 있는 방법 사용.1. Introduct..

Paper Review 2025. 2. 7. 09:11

[NLP/Transformer] Attention Is All You Need

AbstractTransformer 모델기존의 Sequence Transduction 모델은 RNN이나 CNN기반의 인코더-디코더 구조를 사용 & 최고 성능 모델들은 어텐션메커니즘을 추가하여 인코더와 디코더를 연결함.Transformer는 오직 어텐션 메커니즘만을 사용하며, RNN과 CNN을 완전히 제거.이를 통해 병렬화가 용이 & 학습 속도가 크게 향상됨.실험 결과WMT 2014 영어-독일어(En-De) 번역:Transformer는 BLEU 점수 28.4를 기록.기존 최고 성능 모델 대비 2 BLEU 이상 향상.WMT 2014 영어-프랑스어(En-Fr) 번역:BLEU 41.8을 달성, 단일 모델 기준 새로운 최고 성능 기록.8개의 GPU에서 3.5일만에 학습, 기존 최고 모델 대비 학습 비용이 훨씬 적..

Paper Review 2025. 2. 1. 21:56

[NLP/Seq2Seq] Sequence to Sequence Learningwith Neural Networks

0. AbstractDNN을 사용해 Sequence to Sequence 문제를 해결하는 일반적인 접근 방식 제시.이 방법은 다층 LSTM을 사용하여 입력 시퀀스를 고정된 차원의 벡터로 변환한 후, 또 다른 LSTM을 사용해 타겟 시퀀스를 벡터에서 디코딩함.⇒ 첫 번째 LSTM은 데이터를 받아서 그 데이터를 하나의 벡터로 변환한다. 이 벡터는 입력 시퀀스의 중요한 정보를 담고 있다. 두 번째 LSTM은 그 압축된 정보를 풀어서 새로운 데이터으로 바꾼다.주요 결과:영어-프랑스어 번역: LSTM 모델이 BLEU 점수 34.8을 기록. 같은 데이터셋에서 구문 기반 SMT 시스템의 BLEU 점수 33.3보다 우수.성능 향상: SMT 시스템에서 생성된 1000개의 번역 후보를 LSTM으로 재순위화한 결과, BLE..

Paper Review 2025. 2. 1. 21:55

이전 Prev 1 Next 다음

목록NLP (5)

:)

티스토리툴바