GPT 3

NLP | Deep dive en los mecanismos de atención y red neuronal transformers | La base de GPT-3 y BERT



full scan

#deeplearning #nlp #attention #transformers #gpt-3 #gpt3
En este video exploramos en detalle los mecanismos de atención expuestos en revolucionario paper “Attention is all you need” de Google Brain, base de la red Transformers, de la cual se han generado modelos SoTA como BERT o GPT-3.
En concreto veremos:
* La problematica asociada a las RNNs para el NLP
* ¿Como funciona el mecanismo de atención? Q,K y V
* ¿Cuál es la arquitectura encoder-decoder del modelo transformer?
* Modelo colab Tensorflow: https://www.tensorflow.org/tutorials/text/transformer
* Paper original “Attention is all you need”: https://arxiv.org/pdf/1706.03762.pdf