Les datasets sont cruciaux pour entraîner et évaluer des modèles de classification de texte. Vous découvrirez comment sélectionner et préparer un dataset approprié pour votre tâche de classification. Cette section couvre les étapes de chargement des données, de nettoyage et de prétraitement des textes pour les rendre utilisables par les modèles de machine learning. Un bon dataset doit être équilibré et représentatif des différentes classes que vous souhaitez prédire.
Les modèles de NLP ne travaillent pas directement avec du texte brut ; ils utilisent des représentations numériques. Cette section explique le processus de tokenization, qui consiste à convertir des textes en séquences de tokens (mots, sous-mots ou caractères). Vous apprendrez à utiliser les outils de Hugging Face pour tokenizer vos données et à comprendre les différentes stratégies de tokenization, comme le WordPiece ou le Byte Pair Encoding (BPE). Les tokens sont ensuite transformés en vecteurs numériques qui peuvent être utilisés comme entrée pour les modèles de Transformers.
Lisez de la page 21 a la page 37