Brèves informations sur k-NN (k-Nearest Neighbours)
k-Nearest Neighbours (k-NN) est un algorithme d'apprentissage simple, non paramétrique et paresseux utilisé pour la classification et la régression. Dans les problèmes de classification, k-NN attribue une étiquette de classe basée sur la majorité des étiquettes de classe parmi les « k » voisins les plus proches de l'objet. Pour la régression, il attribue une valeur basée sur la moyenne ou la médiane des valeurs de ses « k » voisins les plus proches.
L'histoire de l'origine de k-NN (k-Nearest Neighbours) et sa première mention
L'algorithme k-NN trouve ses racines dans la littérature sur la reconnaissance statistique de formes. Le concept a été introduit par Evelyn Fix et Joseph Hodges en 1951, marquant le début de la technique. Depuis lors, il a été largement utilisé dans différents domaines en raison de sa simplicité et de son efficacité.
Informations détaillées sur k-NN (k-Nearest Neighbours). Élargir le sujet k-NN (k-Nearest Neighbours)
k-NN fonctionne en identifiant les « k » exemples de formation les plus proches d'une entrée donnée et en faisant des prédictions basées sur la règle de la majorité ou sur la moyenne. Les mesures de distance telles que la distance euclidienne, la distance de Manhattan ou la distance de Minkowski sont souvent utilisées pour mesurer la similarité. Les composants clés de k-NN sont :
- Choix de 'k' (nombre de voisins à considérer)
- Métrique de distance (par exemple, euclidienne, Manhattan)
- Règle de décision (par exemple, vote majoritaire, vote pondéré)
La structure interne du k-NN (k-Nearest Neighbours). Comment fonctionne le k-NN (k-Nearest Neighbours)
Le fonctionnement de k-NN peut être décomposé en les étapes suivantes :
- Choisissez le chiffre 'k' – Sélectionnez le nombre de voisins à considérer.
- Sélectionnez une mesure de distance – Déterminer comment mesurer la « proximité » des instances.
- Trouver les k voisins les plus proches – Identifiez les « k » échantillons de formation les plus proches de la nouvelle instance.
- Faire une prédiction – Pour la classification, utilisez le vote majoritaire. Pour la régression, calculez la moyenne ou la médiane.
Analyse des principales caractéristiques de k-NN (k-Nearest Neighbours)
- Simplicité: Facile à mettre en œuvre et à comprendre.
- La flexibilité: Fonctionne avec diverses mesures de distance et adaptable à différents types de données.
- Pas de phase de formation: Utilise directement les données d'entraînement pendant la phase de prédiction.
- Sensible aux données bruyantes: Les valeurs aberrantes et le bruit peuvent affecter les performances.
- Intensif en calcul : nécessite le calcul des distances par rapport à tous les échantillons de l'ensemble de données d'entraînement.
Types de k-NN (k-voisins les plus proches)
Il existe différentes variantes de k-NN, telles que :
Taper | Description |
---|---|
Norme k-NN | Utilise un poids uniforme pour tous les voisins. |
k-NN pondéré | Donne plus de poids aux voisins les plus proches, généralement en fonction de l'inverse de la distance. |
k-NN adaptatif | Ajuste «k» dynamiquement en fonction de la structure locale de l'espace d'entrée. |
k-NN pondéré localement | Combine à la fois le « k » adaptatif et la pondération de la distance. |
- Usage: Classification, Régression, Systèmes de recommandation, Reconnaissance d'images.
- Problèmes: Coût de calcul élevé, Sensible aux fonctionnalités non pertinentes, Problèmes d'évolutivité.
- Solutions: Sélection des fonctionnalités, pondération de la distance, utilisation de structures de données efficaces telles que KD-Trees.
Principales caractéristiques et autres comparaisons avec des termes similaires
Attribut | k-NN | Arbres de décision | SVM |
---|---|---|---|
Type de modèle | Apprentissage paresseux | Apprentissage avide | Apprentissage avide |
Complexité de la formation | Faible | Moyen | Haut |
Complexité des prévisions | Haut | Faible | Moyen |
Sensibilité au bruit | Haut | Moyen | Faible |
Les avancées futures pourraient se concentrer sur l’optimisation de k-NN pour le Big Data, l’intégration de modèles d’apprentissage profond, l’amélioration de la robustesse au bruit et l’automatisation de la sélection des hyperparamètres.
Comment les serveurs proxy peuvent être utilisés ou associés à k-NN (k-Nearest Neighbours)
Les serveurs proxy, tels que ceux fournis par OneProxy, peuvent jouer un rôle dans les applications k-NN impliquant le web scraping ou la collecte de données. La collecte de données via des proxys garantit l'anonymat et peut fournir des ensembles de données plus diversifiés et impartiaux pour créer des modèles k-NN robustes.