Vous pouvez apprendre R le plus rapidement en commençant à l’utiliser. C’est ce que nous allons faire maintenant !
Avant de pouvoir analyser les données et les utiliser pour les applications ML dans la suite de ce module, il est sage de se faire une idée des données dans le jeu de données. Combien de variables (colonnes) contient le jeu de données ? Et combien d’enregistrements (lignes ou cas) ? Quelles sont les valeurs des variables ? Lorsqu’il s’agit de grandes quantités de données, il est bon d’utiliser des graphiques. R est connu pour ses excellentes capacités graphiques, et nous en montrerons quelques-unes.
Cette étape dans l’utilisation des applications ML est également appelée l’exploration des données. Lors de l’exploration des données, nous utilisons des mesures statistiques. Certaines d’entre elles vous sembleront familières, comme la moyenne arithmétique. La moyenne est l’une des mesures permettant de désigner le centre des données (par exemple : le revenu moyen aux Pays-Bas). De plus, nous nous intéressons à la dispersion des données (Quel est le revenu du Néerlandais le mieux payé ? Ou : Combien de personnes vivent en dessous du seuil de pauvreté ?). Ces concepts seront également abordés, et bien sûr, nous montrerons comment utiliser R pour cela.
Dans ce module, vous allez beaucoup travailler avec le package R et l’interface pratique RStudio qui rend le travail avec R encore plus attrayant. Pour commencer, lisez la section sur le téléchargement et l’installation de R et RStudio.
Pour installer R, rendez-vous sur ce site web et suivez les instructions de téléchargement (pour Windows, Mac ou Linux). Trouvez un miroir CRAN (il y en a deux aux Pays-Bas, à Amsterdam et à Utrecht). Une fois que vous avez installé R, vous pouvez aller sur ce site web et télécharger RStudio. Une fois R et RStudio installés, vous pouvez commencer en cliquant sur l’icône RStudio !