Comment fonctionne vraiment un LLM ? Dans cet article, nous allons décortiquer l'architecture des transformers et comprendre ce qui rend ces modèles si puissants.
Nous verrons le mécanisme d'attention, qui permet au modèle de 'regarder' différentes parties du texte simultanément. Nous explorerons aussi le processus de tokenization et d'embedding.
Enfin, nous aborderons les techniques modernes comme le RLHF (Reinforcement Learning from Human Feedback), le fine-tuning avec LoRA, et les méthodes de quantization pour faire tourner ces modèles localement.