Qu’est-ce que l’astuce du noyau ? Pourquoi est-il important ?
Lorsque l’on parle de noyaux en apprentissage automatique, il est fort probable que la première chose qui vous vienne à l’esprit soit le modèle des machines à vecteurs de support (SVM) car l’astuce du noyau est largement utilisée dans le modèle SVM pour faire le pont entre linéarité et non-linéarité.
Pour vous aider à comprendre ce qu’est un noyau et pourquoi il est important, je vais d’abord présenter les bases du modèle SVM.
Le modèle SVM est un modèle d’apprentissage automatique supervisé qui est principalement utilisé pour les classifications (mais il pourrait aussi être utilisé pour la régression !). Il apprend à séparer différents groupes en formant des frontières de décision.
Dans le graphique ci-dessus, on remarque qu’il y a deux classes d’observations : les points bleus et les points violets. Il existe des tonnes de façons de séparer ces deux classes, comme le montre le graphique de gauche. Cependant, nous voulons trouver le « meilleur » hyperplan qui pourrait maximiser la marge entre ces deux classes, ce qui signifie que la distance entre l’hyperplan et les points de données les plus proches de chaque côté est la plus grande. Selon le côté de l’hyperplan où se situe un nouveau point de données, nous pourrions attribuer une classe à la nouvelle observation.
Cela semble simple dans l’exemple ci-dessus. Cependant, toutes les données ne sont pas linéairement séparables. En fait, dans le monde réel, presque toutes les données sont distribuées de manière aléatoire, ce qui rend difficile la séparation linéaire de différentes classes.