목록전체 글 (59)
:)
Abstract자연어 이해는 텍스트 수반, 질문 답변, 의미적 유사성 평가, 문서 분류와 같은 다양한 작업으로 구성.텍스트 자료는 많이 있지만, 이 자료들을 특정한 작업에 맞게 사용할 수 있도록 레이블링된 자료는 많지 않음. 이렇게 레이블링된 자료가 부족하기 때문에, 어떤 특정한 일을 잘 수행할 수 있도록 학습된 모델이 제대로 성능을 내기가 어려움.이 논문은 레이블이 없는 다양한 텍스트를 이용해 먼저 언어 모델을 생성적으로 사전 학습시킨 다음, 이 모델을 각기 다른 특정 작업에 맞게 미세 조정시키면, 해당 작업들을 훨씬 더 잘 수행할 수 있다는 것을 보여줌.이전 접근 방식과 달리, 모델 구조를 거의 바꾸지 않고도 작업에 맞는 입력 변환을 사용해 효과적으로 학습할 수 있는 방법 사용.1. Introduct..
AbstractTransformer 모델기존의 Sequence Transduction 모델은 RNN이나 CNN기반의 인코더-디코더 구조를 사용 & 최고 성능 모델들은 어텐션메커니즘을 추가하여 인코더와 디코더를 연결함.Transformer는 오직 어텐션 메커니즘만을 사용하며, RNN과 CNN을 완전히 제거.이를 통해 병렬화가 용이 & 학습 속도가 크게 향상됨.실험 결과WMT 2014 영어-독일어(En-De) 번역:Transformer는 BLEU 점수 28.4를 기록.기존 최고 성능 모델 대비 2 BLEU 이상 향상.WMT 2014 영어-프랑스어(En-Fr) 번역:BLEU 41.8을 달성, 단일 모델 기준 새로운 최고 성능 기록.8개의 GPU에서 3.5일만에 학습, 기존 최고 모델 대비 학습 비용이 훨씬 적..
0. AbstractDNN을 사용해 Sequence to Sequence 문제를 해결하는 일반적인 접근 방식 제시.이 방법은 다층 LSTM을 사용하여 입력 시퀀스를 고정된 차원의 벡터로 변환한 후, 또 다른 LSTM을 사용해 타겟 시퀀스를 벡터에서 디코딩함.⇒ 첫 번째 LSTM은 데이터를 받아서 그 데이터를 하나의 벡터로 변환한다. 이 벡터는 입력 시퀀스의 중요한 정보를 담고 있다. 두 번째 LSTM은 그 압축된 정보를 풀어서 새로운 데이터으로 바꾼다.주요 결과:영어-프랑스어 번역: LSTM 모델이 BLEU 점수 34.8을 기록. 같은 데이터셋에서 구문 기반 SMT 시스템의 BLEU 점수 33.3보다 우수.성능 향상: SMT 시스템에서 생성된 1000개의 번역 후보를 LSTM으로 재순위화한 결과, BLE..
1. Introduction생성형 인공지능 & 멀티모달 RAG에 대한 연구 동향 1. 생성형 인공지능의 발전과 한계생성형 인공지능은 다음과 같은 작업에서 놀라운 성과를 보여주고 있음텍스트 생성 (Ouyang et al., 2022; Brown et al., 2020)텍스트-이미지 생성 (Ramesh et al., 2021a; Poole et al., 2022)최근에는 멀티모달 대형 언어 모델(MLLM)의 발전으로 다양한 형식의 데이터를 처리할 수 있는 범용 학습자(general-purpose learners)로서의 가능성이 열리고 있음. 한계GAI의 주요 한계:환각(hallucination) 생성 경향 산술 계산의 어려움 해석 가능성 부족해결 방안이러한 한계를 극복하기 위해:GAI가 외부 세계와 상호작용..
1. Diffusion Models의 기본 개념Diffusion 모델: 이미지를 점진적으로 노이즈화한 후 이를 다시 복원하는 과정을 통해 새로운 데이터를 생성하는 모델.이미지 생성 분야 → 비디오 생성 분야에도 적용.2. Diffusion-based Video Generation비디오 디퓨전 모델은 정적 이미지가 아닌 시간에 따라 변화하는 연속적인 프레임 생성.주요 목표시간적 일관성(Temporal Consistency) 유지모션 디테일 향상현실적인 비디오 편집 & 합성 가능기존 GAN 모델과의 차이점특징GAN 모델Diffusion 모델생성 방식한번에 이미지/비디오 생성점진적으로 노이즈 제거하며 생성일관성시간적 일관성 부족시간적 일관성 높음훈련 안정성불안정한 훈련 과정안정적 훈련 가능 3. 활용 사례1)..