Comment trouver le coefficient de corrélation dans Excel
L’un des calculs Excel statistiques les plus simples et les plus courants que vous puissiez effectuer est la corrélation. C’est une statistique simple, mais elle peut être très instructive lorsque vous voulez voir si deux variables sont liées. Trouver des coefficients de corrélation dans Excel est très facile si vous connaissez la bonne commande.
Nous allons jeter un œil à ce qu’est la pertinence et vous donner une idée de ce qu’elle vous offre. Ensuite, nous allons continuer et utiliser les deux méthodes pour trouver le coefficient de corrélation dans Excel et utiliser un joli graphique pour voir la corrélation. Enfin, je vais vous donner une introduction rapide à la régression linéaire, une autre fonction statistique qui peut s’avérer utile lorsque vous examinez des corrélations.
Qu’est-ce que la corrélation ?
Avant de commencer, discutons de la définition de la corrélation. C’est un moyen facile de mesurer la relation entre les choses. Regardons deux variables sans aucune corrélation.
Les deux variables (une tracée sur l’axe des x et une sur l’axe des y) sont complètement aléatoires et ne sont pas étroitement liées.
Cependant, les deux variables suivantes sont liées :
Généralement, lorsqu’une variable augmente, l’autre augmente également. C’est la corrélation. (Notez que cela peut aussi être inversé ; si l’un monte et l’autre descend, c’est une corrélation négative.)
Comprendre les coefficients de corrélation
Le coefficient de corrélation vous indique à quel point deux variables sont liées. Le facteur est compris entre -1 et 1. Un coefficient de corrélation de 0 signifie qu’il n’y a absolument aucune corrélation entre les deux variables. C’est ce que vous devriez obtenir lorsque vous avez deux ensembles de nombres aléatoires.
Faire une vidéo du jour
Un coefficient de -1 signifie que vous avez une corrélation négative parfaite : lorsqu’une variable augmente, l’autre diminue proportionnellement. Un coefficient de 1 est une corrélation positive parfaite : à mesure qu’une variable augmente, l’autre augmente proportionnellement.
Tout nombre entre ceux-ci représente un rapport. Par exemple, une corrélation de 0,5 est une corrélation modérément positive.
Comme le montre la figure ci-dessous, la corrélation ne recherche que les relations linéaires. Deux variables peuvent être fortement corrélées d’une autre manière, mais le coefficient de corrélation est toujours nul :
Crédit image : DenisBoigelot/Wikimedia Commons
Comment trouver des coefficients de corrélation dans Excel à l’aide de CORREL
Excel a une fonction intégrée pour l’association. La syntaxe de la fonction CORREL est très simple :
=CORREL(matrice1, matrice2)
array1 est votre premier ensemble de nombres et array2 est votre deuxième ensemble. Excel crachera un nombre, qui est votre coefficient de corrélation. Prenons un exemple.
Dans cette feuille de calcul, nous avons une liste de voitures, y compris le modèle et l’année, et leurs valeurs. J’utilise la fonction CORREL pour voir si l’année modèle et la valeur sont liées :
Il y a une corrélation positive très faible, donc plus l’année augmente, plus la valeur du véhicule augmente également. Mais pas beaucoup.
Corrélation de parcelle
Lors de l’exécution d’associations, il est préférable d’utiliser un nuage de points pour visualiser la relation entre les jeux de données.aller Graphiques > Nuage de points Voyez à quoi ressemblent vos données :
Comme vous pouvez le voir, dans ces données, l’année de la voiture a peu d’effet sur la valeur.a un léger La tendance est positive, mais faible. C’est ce que nous avons trouvé dans la fonction CORREL.
Un autre élément utile dans un graphique en nuage de points est la ligne de tendance, qui ressemble à ceci :
Les courbes de tendance sont utiles lorsque vous souhaitez établir des corrélations claires dans un nuage de points.Sous Windows, cliquez sur Outils de diagramme > Conception > Ajouter un élément de diagramme et sélectionnez Ligne de tendance. Sur un Mac, vous devez accéder Disposition du graphique ou alors conception graphiqueselon la version d’Excel.
Avant de présenter des résultats, n’oubliez pas de consulter notre guide pour créer de superbes graphiques dans Excel !
Si vous avez de nombreux ensembles de nombres différents et que vous souhaitez trouver des corrélations entre eux, vous devez exécuter la fonction CORREL sur chaque combinaison. Cependant, avec le Data Analysis Toolkit, vous pouvez sélectionner plusieurs ensembles de données et voir où se situent les corrélations.
Vous ne savez pas si vous disposez d’une boîte à outils d’analyse de données ? Consultez notre procédure pas à pas de base pour la télécharger et la maîtriser.
Pour démarrer Toolpak, accédez à Données > Analyse des données. Vous verrez une liste d’options :
choisir Corrélation et frappe D’ACCORD.
Dans la fenêtre des résultats, sélectionnez tous les jeux de données plage d’entrée case et indiquez à Excel où placer les résultats :
Voici ce que vous obtenez lorsque vous frappez la balle D’ACCORD:
Dans le graphique ci-dessus, nous avons exécuté la corrélation sur quatre ensembles de données différents : année, population mondiale et deux ensembles de nombres aléatoires.
Chaque jeu de données a une corrélation de 1 avec lui-même. L’année et la population mondiale ont des corrélations extrêmement fortes et des corrélations très faibles ailleurs, comme on pourrait s’y attendre avec des nombres aléatoires.
Corrélation et régression linéaire dans Excel
La corrélation est une mesure simple : dans quelle mesure deux variables sont-elles corrélées ? Cependant, cette mesure n’a aucune valeur prédictive ou causale. Ce n’est pas parce que deux variables sont corrélées qu’une variable entraînera une modification de l’autre variable. C’est la clé pour comprendre la corrélation.
Si vous souhaitez faire des affirmations sur la causalité, vous devez utiliser la régression linéaire. Vous pouvez également y accéder via le Data Analysis Toolpak. (Cet article n’entrera pas dans les détails du fonctionnement de la régression linéaire, mais il existe de nombreuses ressources statistiques gratuites pour vous guider à travers les bases.)
Ouvrez la boîte à outils d’analyse de données et sélectionnez retournerpuis clique D’ACCORD.
Remplissez les plages X et Y (les valeurs X sont les variables explicatives et les valeurs Y sont les valeurs que vous souhaitez prédire).Ensuite, choisissez où vous voulez que la sortie soit, et cliquez sur D’ACCORD de nouveau.
Les nombres sur lesquels vous voulez vous concentrer ici sont les valeurs p des variables explicatives :
S’il est inférieur à 0,05, vous avez un argument solide selon lequel un changement dans la variable X entraîne un changement dans la variable Y. Dans le graphique ci-dessus, nous avons montré que l’année est un prédicteur important de la population mondiale.
La régression linéaire est également utile car elle examine plusieurs valeurs. Ici, nous utilisons la régression pour voir si l’année et la population sont des prédicteurs significatifs des prix du pétrole brut :
Les deux valeurs p sont inférieures à 0,05, nous pouvons donc conclure que l’année et la population mondiale sont des prédicteurs importants des prix du pétrole brut. (Bien que de fortes corrélations entre les variables X puissent causer leurs propres problèmes.)
Encore une fois, c’est une explication très simple de la régression linéaire, si vous êtes intéressé par la causalité, vous devriez lire quelques tutoriels de statistiques.
Mais maintenant, si vous cherchez plus de statistiques, vous savez déjà comment aller au-delà des simples corrélations !
Obtenez de meilleures données à partir d’Excel
Connaître les fonctions statistiques de base d’Excel peut vous aider à obtenir des informations plus utiles à partir de vos données. La corrélation est une mesure simple, mais elle peut être d’une grande aide lorsque vous essayez de déclarer des nombres dans une feuille de calcul.
Bien sûr, vous pouvez exécuter de nombreuses autres mesures plus complexes. Mais à moins que vous ne soyez à l’aise avec les statistiques, vous voudrez commencer par les bases.
Utilisez-vous fréquemment les fonctions associées d’Excel ? Quelles autres caractéristiques statistiques aimeriez-vous connaître ?
A propos de l’auteur