GPT 3

딥러닝 기반의 최신 언어 모델(GPT)의 개인정보 유출 문제: Extracting Training Data from Large Language Models [꼼꼼한 논문 리뷰]



동빈나

오늘 영상에서 다루는 논문은 GPT-2처럼 큰 언어 모델(large language model)에서 학습 데이터(training data)를 추출하는 공격 방법을 제안합니다. 본 논문은 2020년 12월에 출간되었으며, 다양한 AI 서비스에서 널리 쓰이고 있는 “학습된 GPT-2 네트워크로부터 해당 네트워크가 학습 당시에 사용했던 개인정보가 포함된 학습 데이터”를 추출하는 것이 가능함을 보였습니다.

실제로 최근에는 다수의 AI 서비스에서 큰 규모의 언어 모델이 많이 활용되고 있는 만큼, 이 논문의 내용은 큰 이목을 끌었습니다. 심지어 국내(대한민국)에서도 2021년 초에 대규모 언어 모델 기반의 유명 챗봇 서비스에서 개인정보 유출(privacy leakage)의 문제점이 지적된 사건이 있었습니다.

본 논문에서 제안한 메서드는 언어 모델을 기반으로 하는 서비스가 배포되기 전에, 모델의 취약점을 분석하기 위한 목적으로 효과적으로 사용될 수 있습니다. 특히 본 논문은 딥러닝 보안 분야에서 잘 알려진 연구자인 Nicholas Carlini, Florian Tramer가 참여한 논문이기도 합니다.

논문 제목: Extracting Training Data from Large Language Models
논문 링크: https://arxiv.org/abs/2012.07805

학습 기대 효과
① 딥러닝 기반의 큰 언어 모델에 대한 개인정보 추출 공격 방법을 이해할 수 있습니다.
② 언어 모델 AI 서비스를 운영하는 입장에서 개인정보를 보호하기 위한 대응책을 이해할 수 있습니다.

강의 특징
30장가량의 PPT로 구성되며, 논문 핵심 내용 요약을 포함하는 강의입니다.