Application de la classification dans l’exploration de données
Classification est une technique d’exploration de données qui attribue des catégories à des collections de données pour faciliter des prévisions et des analyses plus précises. La classification est l’une des nombreuses approches visant à rendre efficace l’analyse de très grands ensembles de données.
Pourquoi classer ?
Les bases de données hyperscale deviennent la norme dans le monde d’aujourd’hui Big Data. Imaginez une base de données avec des téraoctets de données – 1 To est un mille milliards octets de données. Facebook traite à lui seul 600 téraoctets de nouvelles données par jour (en 2014, la dernière fois qu’il a signalé ces spécifications). Le principal défi du big data est de savoir comment le comprendre.
Le volume considérable de données n’est pas le seul problème : les mégadonnées ont également tendance à être diverses, non structurées et à évolution rapide. Considérez les données audio et vidéo, les publications sur les réseaux sociaux, les données 3D ou les données géospatiales. Ces données ne sont pas faciles à classer ou à organiser.
Pour relever ce défi, une série de méthodes automatisées d’extraction d’informations utiles ont été développées, notamment Classification.
Images de héros/Getty Images
Comment fonctionne la classification
L’objectif de l’analyste est de créer un ensemble de règles de classification pour répondre à des questions, prendre des décisions ou prédire un comportement. Tout d’abord, développez un ensemble de données d’entraînement contenant un ensemble spécifique de propriétés et de résultats possibles. Le travail d’un algorithme de classification est de découvrir comment cet ensemble d’attributs est arrivé à une conclusion.
Prenons l’exemple d’une société de cartes de crédit essayant de déterminer quels clients potentiels devraient recevoir des offres de cartes de crédit.
Les données de formation de l’entreprise peuvent inclure :
Nom | âge | le sexe | Revenu annuel | Offre de carte de crédit |
---|---|---|---|---|
Jean Doe | 25 | Mètre | 39 500 $ | Ne pas |
Jane Doe | 56 | F | 125 000 $ | oui |
données d’entraînement
colonne de prédiction âge, le sexeet Revenu annuel Déterminer la valeur de « l’attribut de prédiction » Offre de carte de créditDans l’ensemble d’apprentissage, les propriétés du prédicteur sont connues. L’algorithme de classification tente alors de déterminer comment atteindre la valeur de l’attribut prédicteur : quelle est la relation entre le prédicteur et la décision ? Il développera un ensemble de règles de prédiction, généralement une instruction IF/THEN.
Évidemment, il s’agit d’un exemple simple et l’algorithme nécessite un échantillon de données beaucoup plus important que les deux enregistrements présentés ici. De plus, les règles de prédiction peuvent être beaucoup plus complexes, y compris des sous-règles qui capturent les détails des attributs.
Ensuite, donnez à l’algorithme un « ensemble de prédiction » de données à analyser, mais cet ensemble n’a pas la propriété prédictive (ou décision):
Nom | âge | le sexe | Revenu annuel | Offre de carte de crédit |
---|---|---|---|---|
Jack Frost | 42 | Mètre | 88 000 $ | |
Marie Murray | 16 | F | 0 $ |
données prévisionnelles
Ces données de prédicteur permettent d’estimer la précision des règles de prédiction, puis d’ajuster les règles jusqu’à ce que les développeurs jugent les prédictions valides et utiles.
exemples quotidiens de classification
La classification et d’autres techniques d’exploration de données sont à l’origine d’une grande partie de notre expérience quotidienne en tant que consommateurs. Les prévisions météorologiques utilisent des techniques de classification pour signaler si le jour est pluvieux, ensoleillé ou couvert. La communauté médicale analyse les conditions de santé pour prédire les résultats médicaux probables. Une méthode de classification, Naive Bayes, utilise la probabilité conditionnelle pour classer le spam.
Merci de nous en informer!
Dites-nous pourquoi !
D’autres détails ne sont pas assez difficiles à comprendre