Inférence LLM : fonctionnement et applications en français
Un même modèle de langage, déployé sur deux serveurs identiques, peut fournir des réponses différentes à une question identique selon la gestion des paramètres de température ou de top-k sampling.