Il transformer illustrato - IT
Disclaimer
Traduzione italiana di The illustrated Transformer by Jay Alammar
Non sono un traduttore professionista.
La proprietà intellettuale dell’articolo è di Jay Alammar
Italian translation of The illustrated Transformer by Jay Alammar
I’m not a professional translator.
The intellectual property of the article is owned by Jay Alammar
Nel post precedente, abbiamo esaminato l’Attention – un metodo onnipresente nei moderni modelli di deep learning. L’attention è uno strumento che ha contribuito a migliorare le prestazioni delle applicazioni di traduzione automatica che utilizzano modelli neurali. In questo post, esamineremo Il Transformer, un modello che utilizza l’attention per aumentare la velocità con cui queste reti possono essere addestrati. Il Trasformer ha perfino supera il modello di traduzione automatica neurale di Google in attività specifiche. Il più grande vantaggio, tuttavia, deriva dal modo in cui il Transformer si presta alla parallelizzazione. È infatti raccomandazione di Google Cloud sfruttare il Transformer come modello di riferimento per utilizzare la loro proposte di Cloud TPU. Proviamo a scomporre il modello e vediamo come funziona.
Il Transformer è stato proposto nell’articolo Attention is All You Need. Una sua implementazione TensorFlow è disponibile come parte del pacchetto Tensor2Tensor. Il gruppo NLP di Harvard ha creato una guida che spiega l’articolo con implementazioni in PyTorch. In questo post, cercheremo di semplificare un po’ le cose e di introdurre i concetti uno per uno, sperando che sia più facile da capire per le persone senza una conoscenza approfondita dell’argomento.
Aggiornamento 2020: Ho creato il video “Transformer narrati” che è un approccio più soft all’argomento:
Read the full article on Medium
Per favore contatta Jay Alammar su Twitter per qualsiasi correzione o feedback sull’articolo originario.
Altrimenti per correzione o feedback su questa traduzione contattate Valerio Mannucci su Twitter.