Définition des modèles statistiques de régression
La régression est une technique d’exploration de données utilisée pour prédire une série de valeurs numériques (également appelées valeur continue), étant donné un jeu de données spécifique. Par exemple, la régression peut être utilisée pour prédire le coût d’un produit ou d’un service compte tenu d’autres variables.
La régression est utilisée dans la planification commerciale et marketing, les prévisions financières, la modélisation environnementale et l’analyse des tendances dans plusieurs secteurs.
Régression et classification
La régression et la classification sont des techniques d’exploration de données utilisées pour résoudre des problèmes similaires, mais elles sont souvent confondues. Les deux sont utilisés pour l’analyse prédictive, mais la régression est utilisée pour prédire les valeurs numériques ou continues, tandis que la classification attribue les données en catégories discrètes.
Par exemple, la régression sera utilisée pour prédire la valeur d’une maison en fonction de son emplacement, de sa superficie, de son prix lors de sa dernière vente, des prix de maisons similaires et d’autres facteurs. Si vous souhaitez catégoriser la maison, comme le potentiel piétonnier, la taille du terrain ou le taux de criminalité, la catégorisation sera en ordre.
Types de techniques de régression
La forme de régression la plus simple et la plus ancienne est la régression linéaire, qui estime la relation entre deux variables. Cette technique utilise la formule mathématique pour une ligne droite (y = mx + b). En termes simples, cela signifie simplement que, étant donné un graphique avec un axe Y et un axe X, la relation entre X et Y est une ligne droite avec peu de valeurs aberrantes. Par exemple, nous pouvons supposer qu’à mesure que la population augmente, la production alimentaire augmentera au même rythme – ce qui nécessite une relation linéaire forte entre les deux chiffres. Pour visualiser cela, considérons un graphique où l’axe Y suit l’augmentation de la population et l’axe X suit la production alimentaire. À mesure que la valeur Y augmente, la valeur X augmente au même rythme, faisant de la relation entre eux une ligne droite.
Des techniques avancées telles que la régression multiple peuvent prédire les relations entre plusieurs variables. Par exemple, existe-t-il une corrélation entre le revenu, l’éducation et l’endroit où les gens choisissent de vivre ? L’ajout de plus de variables augmente considérablement la complexité des prédictions. Il existe plusieurs types de techniques de régression multiple, y compris standard, hiérarchique, groupe par groupe et pas à pas, chacune avec ses propres applications.
À ce stade, il est important de comprendre ce que nous essayons de prédire (selon ou attendu variables) et les données que nous utilisons pour faire des prédictions (indépendantes ou prédicteur variable).Dans notre exemple, nous voulons prédire où une personne choisit de vivre (c’est-à-dire attendu variable) compte tenu du revenu et de l’éducation (les deux prédicteur variable).
- Régression multiple standard Considérez tous les prédicteurs en même temps. Par exemple 1) quelle est la relation entre le revenu et l’éducation (prédit) et le choix du quartier (prédit) ; 2) dans quelle mesure chaque prédicteur contribue-t-il à cette relation ?
- régression multiple pas à pas Répond à une question complètement différente. Un algorithme de régression pas à pas analysera quels prédicteurs sont les meilleurs pour la sélection des quartiers prédictifs – cela signifie qu’un modèle pas à pas évalue l’ordre d’importance des prédicteurs puis sélectionne le sous-ensemble pertinent. Ce type de problème de régression utilise des « étapes » pour développer des équations de régression. Étant donné ce type de régression, tous les prédicteurs peuvent même ne pas apparaître dans l’équation de régression finale.
- Régression hiérarchique, comme pas à pas, est un processus séquentiel, mais les prédicteurs sont introduits dans le modèle dans un ordre prédéfini et pré-spécifié, c’est-à-dire que l’algorithme ne contient pas de système intégré de prédicteur d’équations pour déterminer l’ordre d’entrée. Cette méthode est le plus souvent utilisée lorsque la personne qui crée l’équation de régression possède une expertise dans le domaine.
- régression groupe par groupe Similaire également à Stepwise, mais analyse des ensembles de variables au lieu de variables individuelles.
Merci de nous en informer!
Recevez les dernières nouvelles technologiques publiées quotidiennement
abonnement
Dites-nous pourquoi !
D’autres détails ne sont pas assez difficiles à comprendre