박성남
PR12에서 이번에 발표한 논문은 GPT-3로 알려져 있는 ‘Language Models are Few-Shot Learners’ 라는 논문입니다. 이 논문은 pretrain + finetune 하는 기존 방식에서 벗어나, pretrain을 엄청난 크기의 모델(기존 최대 대비 10배) 에하고 task description + few shot learning을 통해 좋은 결과를 낸 논문입니다.
Similar Posts
One thought on “PR-256: GPT-3 : Language Models are Few-Shot Learners”
Comments are closed.
wanna collab?