CHAPITRE 01 - INTRODUCTION AUX TRANSFORMERS
CHAPITRE 02 - CLASSIFICATION DE TEXTE
CHAPITRE 03 - ANATOMIE DES TRANSFORMERS
CHAPITRE 04 - RECONNAISSANCE D'ENTITE NOMMES MULTILINGUE
CHAPITRE 05 - GENERATION DE TEXTE
CHAPITRE 06 - RESUME DE TEXTE
CHAPITRE 07 - QUESTION ANSWERING
CHAPITRE 08 - RENDRE LES TRANSFORMERS EFFICACES EN PRODUCTION
CHAPITRE 09 - GERER UN NOMBRE LIMITE OU INEXISTANT D'ETIQUETTES
CHAPITRE 10 - ENTRAINER DES TRANSFORMERS A PARTIR DE ZERO
CHAPITRE 11 - DIRECTIONS FUTURES

Etude 01

The Dataset (Le Dataset)

Les datasets sont cruciaux pour entraîner et évaluer des modèles de classification de texte. Vous découvrirez comment sélectionner et préparer un dataset approprié pour votre tâche de classification. Cette section couvre les étapes de chargement des données, de nettoyage et de prétraitement des textes pour les rendre utilisables par les modèles de machine learning. Un bon dataset doit être équilibré et représentatif des différentes classes que vous souhaitez prédire.

From Text to Tokens (De Texte à Tokens)

Les modèles de NLP ne travaillent pas directement avec du texte brut ; ils utilisent des représentations numériques. Cette section explique le processus de tokenization, qui consiste à convertir des textes en séquences de tokens (mots, sous-mots ou caractères). Vous apprendrez à utiliser les outils de Hugging Face pour tokenizer vos données et à comprendre les différentes stratégies de tokenization, comme le WordPiece ou le Byte Pair Encoding (BPE). Les tokens sont ensuite transformés en vecteurs numériques qui peuvent être utilisés comme entrée pour les modèles de Transformers.

Lisez de la page 21 a la page 37

Scroll to Top