GPT 3

[Paper Review] SMART: Robust and Efficient Fine-tuning for Pre-trained Natural Language Models …



KoreaUniv DSBA

발표자: 김명섭
DSBA 연구실: http://dsba.korea.ac.kr/
발표 자료 및 참고 문헌: http://dsba.korea.ac.kr/seminar/?pageid=2&mod=document&uid=1462

1. Topic

SMART: Robust and Efficient Fine-Tuning for Pre-trained Natural Language Models through Principled Regularized Optimization

2. Overview

최근 Language Model의 Parameter를 지속적으로 증가시키며, Model의 성능을 개선하는 연구들이 지속되고 있습니다. 대용량 Language Model에는 대표적으로 11B개의 Parameter를 보유한 T5(Text-to-text Transfer Transformer)와 GPT-3(Generative Pre-Trained Transformer)가 있습니다. 이들 대용량 Language Model은 분명 우수한 성능을 보이고 있지만, Model의 크기가 너무나도 크기 때문에 실제적으로 사용하기가 매우 어렵다는 단점이 존재합니다. 이에 Language Model의 크기를 유지하면서도 높은 성능을 낼 수 있도록 하는 연구들이 수행되고 있습니다. SMART는 크기를 유지하면서 높은 성능을 내고자 하는 연구에 해당합니다.

SMART는 Language Model이 대용량 Corpus를 사용한 Pre-Training을 위해 매우 많은 Parameter를 보유하고 있지만, Fine-Tuning을 수행할 때에는 데이터의 수가 많지 않기 때문에 너무나도 많은 Parameter로 인한 Overfitting의 위험성을 언급합니다. 이를 방지하기 위해 Smoothness-Inducing Adversarial Regularization과 Bregman Proximal Point Optimization을 도입합니다.

Smoothness-Inducing Adversarial Regularization은 Input Embedding에 Noise를 부과했을 때, Output의 분포가 Noise를 부과하지 않은 Output의 분포와 유사하도록 제어합니다. 이를 통해 매우 많은 Parameter를 보유하고 있는 Model의 급진적인 Output 변화를 방지하여, Model의 Complexity를 제어합니다.

Bregman Proximal Point Optimization은 기존 Parameter를 이용하여 산출된 Output과 새롭게 Update될 Parameter를 이용하여 산출된 Output의 분포 차이를 줄이도록 제어합니다. 이를 통해 매우 많은 Parameter를 보유하고 있는 Model의 급진적인 Update를 방지합니다. 저자들은 학습 속도를 위해 Momentum을 도입한 Momentum Bregman Proximal Point Optimization을 사용합니다.

SMART는 Single Model을 기준으로 3개의 GLUE Subtask에서 약 30배의 Parameter 수의 차이를 보이는 T5를 상회하는 성능을 기록하였고, MT-DNN과의 Ensemble을 통해 GLUE Benchmark 평균 성능에서 T5를 상회하는 성능을 기록하고, State-of-the-art를 갱신하였습니다.