목록paper review (12)
:)

1. 개요DeepSeek MATH: 수학적 추론 능력을 극대화하기 위해 개발된 오픈소스 AI 모델DeepSeek-Coder-Base-v1.5 7B를 기반으로 학습자연어 데이터 뿐만 아니라 수학 관련 데이터와 코드 데이터를 추가 학습해 정확도 향상 2. ContributionMath Pre-Training at Scale 대규모 수학 사전 학습Common Crawl에서 120B 토큰 규모의 수학 데이터(DeepSeekMath Corpus) 생성 (Minerva의 7배)DeepSeekMath-Base 7B가 Minerva 540B와 유사한 성능 → 모델 크기보다 데이터 품질이 중요함을 증명.코드 학습의 효과 확인: 코드 학습 후 수학 학습을 진행하면 문제 해결 및 도구 활용 능력 향상arXiv 데이터 학습은..
Abstract문제점기존 unsupervised skill discovery 방법들: 정적인 환경에만 초점. 에피소드 내 고정된 스킬만 사용. → 변화하는 환경 속 공통 구조를 제대로 학습 X.제안 기법incremental skills: 이전에 학습한 스킬들의 조합으로 구성된 state coverage를 확장하도록 새로운 스킬 학습.스킬 평가 프로세스: 중복 스킬 방지를 위해 새 스킬이 기존 스킬과 얼마나 다른지 & state coverage 확장 기여도 평가.실험 결과Maze navigation과 locomotion 환경에서 제안 알고리즘이 공통 구조를 잘 표현하는 스킬을 학습함.Downstream task에서도 기존 방법들보다 더 유용함.1.Introduction문제의식기존의 강화학습 에이전트는 매번..

AbstractLoRA: Fine-tuning 비용 & 메모리 문제 해결 방법장점모델 저장 공간 절약 & Task 전환 용이 → 작은 LoRA 모듈만 저장하면 됨학습 효율 증가 → Gradient 저장 불필요, 하드웨어 요구량 3배 절감추론 속도 유지 → 기존 Fine-tuned 모델과 동일한 속도다른 방법과 병행 가능 → Prefix-tuning 등과 조합 가능Introduction연구 배경사전 학습된 LLM은 다양한 다운스트림 작업에 적응 필요.기존 Fine-tuning 방식은 모든 파라미터를 업데이트해야 하므로 비효율적모델 크기가 클수록 비용 증가추론 속도 저하 및 사용 가능한 시퀀스 길이 감소성능 저하와 효율성 사이의 트레이드오프 발생LoRA (Low-Rank Adaptation) 개념LLM의 가..
Abstract기존의 LLM 기반 로봇 내비게이션 방식주로 정적인 환경을 대상으로 함. 로봇의 실제 경험을 활용하지 X → 현실 세계처럼 예측 불가능한 환경에서는 실패할 가능성이 높음.E2Map의 필요성로봇이 직접 경험한 데이터를 반영해 경로를 조정.인간이 과거 경험과 감정적 반응을 통해 행동을 조정하는 것에서 영감을 받음.경험을 바탕으로 E2Map을 업데이트 → one-shot으로 행동 조정할 수 있도록 지원.⇒ 기존 LLM 기반 방법보다 성능이 향상됨.Introduction기존 LLM 기반 로봇 시스템은 정적인 환경에서만 효과적 & 실제 환경에서 발생하는 예상치 못한 변수에 대한 적응력은 부족함.이를 해결하기 위해 로봇의 감정적 반응을 공간 정보와 결합하는 E2Map을 제안 → 로봇이 경험을 바탕으로..

0. AbstractAnimateDiff 개요개인화된 T2I 모델에 동적인 움직임을 추가하는 방법모션 모듈은 별도의 모델 재학습 없이 적용 가능 & MotionLoRA를 활용해 특정 모션 패턴에 적응 가능.핵심 기술모션 모듈 → 비디오 데이터에서 학습한 모션 패턴을 T2I 모델에 적용MotionLoRA → 경령화된 fine-tuning 기법으로 새로운 모션 패턴에 적응 가능1. Introduction배경기존의 Stable Diffusion, DreamBooth, LoRA 등의 기법 덕분에 사용자들은 자신만의 T2I 모델을 쉽게 커스터마이징 가능.소규모 데이터셋으로도 고품질 이미지 생성 가능.문제점: 기존 T2I 모델은 정적 이미지만 생성 가능 → 애니메이션화하는 어려움모델별 개별 튜닝이 필요 → 연산 비..