Nous verrons dans ce tutoriel comment un algorithme d’arbre décisionnel permet de faire des prédictions. Ce tutoriel comporte trois carnets, chacun traitant d’une application différente des arbres décisionnels et de l’algorithme connexe de forêt aléatoire. Une forêt aléatoire est en fait un regroupement d’arbres décisionnels.
Dans le Carnet 1 - Arbres de décision, nous analyserons un jeu de données relatives aux iris, un genre de fleur regroupant environ 300 espèces de plantes de la famille des iridacées, très populaires dans les jardins, peu importe la zone thermique. Il s’agit de plusieurs espèces végétales dont l’identification manuelle prendrait beaucoup de temps. Nous souhaiterions donc générer un modèle qui nous aidera à prédire la classe à laquelle une iris appartient, en fonction de ses caractéristiques.
Dans le Carnet 2, nous élargirons le modèle d’arbre décisionnel au modèle de forêt aléatoire, qui regroupe en fait plusieurs arbres décisionnels traitant différents blocs de données. Le modèle cumule les résultats des différents arbres pour faire des prévisions plus précises, le résultat généré par la forêt aléatoire correspondant à la classe sélectionnée par le plus grand nombre d’arbres décisionnels.
Dans le carnet 3 nous verrons dans ce tutoriel comment les classificateurs à forêt aléatoire peuvent améliorer les prédictions face à des jeux de données bruitées alors que de simples modèles d’apprentissage-machine, comme celui de régression linéaire, ne sont pas à la hauteur. Comme jeu de données bruitées, nous utiliserons le jeu de données épurées dont nous nous sommes servis pour le tout premier tutoriel sur la préparation de données à des fins d’apprentissage-machine.
This machine learning training explores the dual nature of Decision Trees, demonstrating a fascinating interplay between human intuition and mathematical optimization. It delves into how decision trees use simple, hierarchical branching based on key features, mirroring how our minds categorize objects using decisive traits. The training comprises three notebooks, each focusing on distinct applications of the Decision Tree and its associated Random Forest algorithm.