Qu’est-ce que le clustering K-means ?
Cette k-Signifie qu’un algorithme de clustering est un outil d’exploration de données et d’apprentissage automatique pour regrouper des observations dans des groupes d’observations liés sans connaissance préalable de ces relations.Avec l’échantillonnage, l’algorithme essaie de montrer à quelle classe ou cluster appartiennent les données, le nombre de clusters est défini par la valeur k.
Cette k-L’algorithme de moyenne est l’une des techniques de regroupement les plus simples et est souvent utilisé dans des domaines connexes tels que l’imagerie médicale et la biométrie.Les avantages k-Cela signifie que le clustering est ce qu’il vous dit sur les données (en utilisant sa forme non supervisée), et non que vous devez instruire l’algorithme sur les données au début (en utilisant la forme supervisée de l’algorithme).
Il est parfois appelé algorithme de Lloyd, en particulier dans les cercles informatiques, car l’algorithme standard a été proposé pour la première fois par Stuart Lloyd en 1957. Le terme « k-means » a été inventé en 1967 par James McQueen.
Comment fonctionne l’algorithme K-Means
Cette k-Cela signifie que l’algorithme est un algorithme évolutif, et son nom vient de son mode de fonctionnement.L’algorithme regroupe les observations en K groupe, dont K Fourni comme paramètre d’entrée. Il attribue ensuite chaque observation à un cluster en fonction de la proximité de l’observation par rapport à la moyenne du cluster. Recalculez ensuite la moyenne du cluster et recommencez le processus. Voici comment fonctionne l’algorithme :
- Choix arbitraire de l’algorithme K point comme centre initial du cluster (moyenne).
- Chaque point du jeu de données est affecté à un cluster fermé en fonction de la distance euclidienne entre chaque point et chaque centre de cluster.
- Chaque centre de cluster est recalculé comme la moyenne des points de ce cluster.
- Répétez les étapes 2 et 3 jusqu’à ce que le cluster converge. La définition de la convergence peut varier d’une implémentation à l’autre, mais signifie généralement qu’aucune observation ne modifie le cluster lorsque les étapes 2 et 3 sont répétées, ou que les changements n’affectent pas de manière significative la définition du cluster.
Choisissez le nombre de clusters
l’un des principaux inconvénients de k-Signifie que le clustering est le fait que vous devez spécifier le nombre de clusters en entrée de l’algorithme. De par sa conception, l’algorithme ne peut pas déterminer le nombre approprié de clusters et dépend de l’utilisateur pour l’identifier à l’avance.
Par exemple, si vous souhaitez regrouper un groupe de personnes en fonction de l’identité de genre binaire masculin ou féminin, appelez k-Représente un algorithme qui utilise l’entrée k=3 lorsqu’il n’y a que deux entrées ou k=2, Fournit un ajustement plus naturel.
De même, si un groupe de personnes est facile à regrouper par ville natale et que vous appelez k-Représentation des algorithmes et des entrées k=20, Les résultats peuvent être trop généraux pour être valides.
Pour cette raison, c’est généralement une bonne idée d’essayer différentes valeurs K Déterminez la meilleure valeur pour vos données. Vous pouvez également explorer l’utilisation d’autres algorithmes d’exploration de données dans votre quête de connaissances en apprentissage automatique.
FAQ
-
Qu’est-ce que l’exploration de données ?
L’exploration de données est la pratique consistant à analyser de grandes quantités d’informations pour trouver des tendances et des modèles. Ces données sont généralement collectées à partir de l’historique de navigation Internet d’une personne, de ses habitudes d’achat, de ses données de localisation, etc.
-
Comment fonctionne l’exploration de données ?
Les entreprises collectent souvent des données à partir de programmes de récompenses, de médias sociaux, de listes de diffusion, etc. Ces données sont ensuite analysées pour les modèles et le comportement. C’est ainsi que les épiceries savent, par exemple, que le lait de poule est un grand succès pendant les vacances, ou pourquoi des publicités pour des fournitures de camping apparaissent dans vos flux de médias sociaux après avoir recherché votre voyage à Sion.
-
Quels sont les principaux objectifs associés à l’exploration de données ?
L’objectif principal est de découvrir des idées, des tendances et des relations dans de grandes quantités de données. Les experts utilisent ces informations brutes pour développer des stratégies marketing. Il est également utilisé dans des domaines tels que la police, la science et l’ingénierie.
Merci de nous en informer!
Dites-nous pourquoi !
D’autres détails ne sont pas assez difficiles à comprendre