목록분류 전체보기 (48)
:)

AbstractTransformer 모델기존의 Sequence Transduction 모델은 RNN이나 CNN기반의 인코더-디코더 구조를 사용 & 최고 성능 모델들은 어텐션메커니즘을 추가하여 인코더와 디코더를 연결함.Transformer는 오직 어텐션 메커니즘만을 사용하며, RNN과 CNN을 완전히 제거.이를 통해 병렬화가 용이 & 학습 속도가 크게 향상됨.실험 결과WMT 2014 영어-독일어(En-De) 번역:Transformer는 BLEU 점수 28.4를 기록.기존 최고 성능 모델 대비 2 BLEU 이상 향상.WMT 2014 영어-프랑스어(En-Fr) 번역:BLEU 41.8을 달성, 단일 모델 기준 새로운 최고 성능 기록.8개의 GPU에서 3.5일만에 학습, 기존 최고 모델 대비 학습 비용이 훨씬 적..
0. AbstractDNN을 사용해 Sequence to Sequence 문제를 해결하는 일반적인 접근 방식 제시.이 방법은 다층 LSTM을 사용하여 입력 시퀀스를 고정된 차원의 벡터로 변환한 후, 또 다른 LSTM을 사용해 타겟 시퀀스를 벡터에서 디코딩함.⇒ 첫 번째 LSTM은 데이터를 받아서 그 데이터를 하나의 벡터로 변환한다. 이 벡터는 입력 시퀀스의 중요한 정보를 담고 있다. 두 번째 LSTM은 그 압축된 정보를 풀어서 새로운 데이터으로 바꾼다.주요 결과:영어-프랑스어 번역: LSTM 모델이 BLEU 점수 34.8을 기록. 같은 데이터셋에서 구문 기반 SMT 시스템의 BLEU 점수 33.3보다 우수.성능 향상: SMT 시스템에서 생성된 1000개의 번역 후보를 LSTM으로 재순위화한 결과, BLE..
1. Introduction생성형 인공지능 & 멀티모달 RAG에 대한 연구 동향 1. 생성형 인공지능의 발전과 한계생성형 인공지능은 다음과 같은 작업에서 놀라운 성과를 보여주고 있음텍스트 생성 (Ouyang et al., 2022; Brown et al., 2020)텍스트-이미지 생성 (Ramesh et al., 2021a; Poole et al., 2022)최근에는 멀티모달 대형 언어 모델(MLLM)의 발전으로 다양한 형식의 데이터를 처리할 수 있는 범용 학습자(general-purpose learners)로서의 가능성이 열리고 있음. 한계GAI의 주요 한계:환각(hallucination) 생성 경향 산술 계산의 어려움 해석 가능성 부족해결 방안이러한 한계를 극복하기 위해:GAI가 외부 세계와 상호작용..
1. Diffusion Models의 기본 개념Diffusion 모델: 이미지를 점진적으로 노이즈화한 후 이를 다시 복원하는 과정을 통해 새로운 데이터를 생성하는 모델.이미지 생성 분야 → 비디오 생성 분야에도 적용.2. Diffusion-based Video Generation비디오 디퓨전 모델은 정적 이미지가 아닌 시간에 따라 변화하는 연속적인 프레임 생성.주요 목표시간적 일관성(Temporal Consistency) 유지모션 디테일 향상현실적인 비디오 편집 & 합성 가능기존 GAN 모델과의 차이점특징GAN 모델Diffusion 모델생성 방식한번에 이미지/비디오 생성점진적으로 노이즈 제거하며 생성일관성시간적 일관성 부족시간적 일관성 높음훈련 안정성불안정한 훈련 과정안정적 훈련 가능 3. 활용 사례1)..
The Sequential API레이어를 직선으로 쌓아서 모델을 구성 (단순한 설계)Load the Data and Split the Data into Train/Test SetsHappy House 데이터셋을 활용하여 얼굴 이미지에서 사람의 미소 여부를 판단하는 모델모델 목표: 웃고 있는 사람만 Happy House에 입장할 수 있도록 웃는 얼굴 분류X_train_orig, Y_train_orig, X_test_orig, Y_test_orig, classes = load_happy_dataset()# Normalize image vectorsX_train = X_train_orig/255.X_test = X_test_orig/255.# ReshapeY_train = Y_train_orig.TY_test..