
Scaling Parametric Knowledge Acquisition Beyond RAG
Scaling Parametric Knowledge Acquisition Beyond RAG
Synthetic Data Augmentation은 데이터가 부족한 도메인에서 언어 모델에 새로운 지식을 학습시키는 유망한 방법이지만, 기존 접근법은 diminishing returns에 부딪히는 경우가 많고 RAG 대비 성능이 낮은 수준에 머물러 있습니다. 이번 발표에서는 합성 질의응답 쌍과 합성 문서를 결합하여 상호 보완적인 학습 신호를 제공하는 방법인 Synthetic Mixed Training을 소개합니다. 이 간단한 조합을 통해 합성 데이터의 양과 생성기의 품질이 증가함에 따라 일관된 log-linear 성능 향상을 달성할 수 있으며, 모델이 RAG의 성능 상한을 넘어설 수 있게 됩니다. 또한 질문 조건부 문서 생성 기법인 Focal Rewriting도 다룰 예정인데, 이 기법은 문서의 다양성을 높이고 스케일링 특성을 더욱 강화합니다. QuaLITY, LongHealth, FinanceBench를 포함한 여러 벤치마크에서 이 접근법은 대부분의 설정에서 RAG를 능가하는 성능을 보였으며, RAG와 결합할 경우 그 성능 향상 폭은 더욱 커집니다.
연사소개
한승주 / Ph.D. student in Computer Science at Stanford University
스탠퍼드 대학교 컴퓨터과학과 박사과정 학생으로, 최예진 교수의 지도를 받으며 James Zou, Tatsunori Hashimoto와 함께 연구하고 있습니다. 그의 연구는 합성 데이터의 스케일링을 통한 언어 모델 개선에 초점을 맞추고 있으며, 단순하고 확장 가능한 아이디어를 추구합니다. 스탠퍼드 이전에는 서울대학교를 졸업하고 NVIDIA Research에서 추론 및 합성 데이터 관련 연구를 수행했습니다.
*본 웨비나는 온라인으로 진행됩니다. 사전 신청을 완료하신 분들에 한해 웨비나 녹화본을 제공해 드릴 예정이니, 많은 관심과 참여 부탁드립니다.

Scaling Parametric Knowledge Acquisition Beyond RAG
Scaling Parametric Knowledge Acquisition Beyond RAG
Synthetic Data Augmentation은 데이터가 부족한 도메인에서 언어 모델에 새로운 지식을 학습시키는 유망한 방법이지만, 기존 접근법은 diminishing returns에 부딪히는 경우가 많고 RAG 대비 성능이 낮은 수준에 머물러 있습니다. 이번 발표에서는 합성 질의응답 쌍과 합성 문서를 결합하여 상호 보완적인 학습 신호를 제공하는 방법인 Synthetic Mixed Training을 소개합니다. 이 간단한 조합을 통해 합성 데이터의 양과 생성기의 품질이 증가함에 따라 일관된 log-linear 성능 향상을 달성할 수 있으며, 모델이 RAG의 성능 상한을 넘어설 수 있게 됩니다. 또한 질문 조건부 문서 생성 기법인 Focal Rewriting도 다룰 예정인데, 이 기법은 문서의 다양성을 높이고 스케일링 특성을 더욱 강화합니다. QuaLITY, LongHealth, FinanceBench를 포함한 여러 벤치마크에서 이 접근법은 대부분의 설정에서 RAG를 능가하는 성능을 보였으며, RAG와 결합할 경우 그 성능 향상 폭은 더욱 커집니다.
연사소개
한승주 / Ph.D. student in Computer Science at Stanford University
스탠퍼드 대학교 컴퓨터과학과 박사과정 학생으로, 최예진 교수의 지도를 받으며 James Zou, Tatsunori Hashimoto와 함께 연구하고 있습니다. 그의 연구는 합성 데이터의 스케일링을 통한 언어 모델 개선에 초점을 맞추고 있으며, 단순하고 확장 가능한 아이디어를 추구합니다. 스탠퍼드 이전에는 서울대학교를 졸업하고 NVIDIA Research에서 추론 및 합성 데이터 관련 연구를 수행했습니다.
*본 웨비나는 온라인으로 진행됩니다. 사전 신청을 완료하신 분들에 한해 웨비나 녹화본을 제공해 드릴 예정이니, 많은 관심과 참여 부탁드립니다.

