Qu'est-ce que la régression logistique ? (2024)

La régression logistique est un algorithme d'apprentissage automatique supervisé qui permet d'effectuer des tâches de classification binaire en prédisant la probabilité d'un résultat, d'un événement ou d'une observation. Ce modèle fournit un résultat binaire ou dichotomique limité à deux possibilités : oui/non, 0/1 ou vrai/faux. La régression logistique analyse la relation entre une ou plusieurs variables indépendantes et classe les données en classes discrètes. Elle est largement utilisée dans la modélisation prédictive, où le modèle estime la probabilité mathématique qu'une instance appartienne à une catégorie spécifique ou non.

Par exemple, la régression logistique peut être utilisée pour déterminer la probabilité d'une crise cardiaque en fonction de variables telles que le poids et l'exercice physique d'une personne. Elle peut également être utilisée pour prédire la probabilité qu'un étudiant soit accepté dans une université ou pour filtrer les e-mails indésirables. La régression logistique présente plusieurs avantages, notamment sa facilité de mise en œuvre, sa capacité à traiter des ensembles de données linéairement séparables et sa capacité à fournir des informations précieuses sur les variables prédictives.

Équation et hypothèses de la régression logistique

La régression logistique utilise une fonction logistique appelée fonction sigmoïde pour mapper les prédictions et leurs probabilités. La fonction sigmoïde est une courbe en forme de S qui convertit toute valeur réelle en une plage comprise entre 0 et 1. Lorsque la sortie de la fonction sigmoïde (probabilité estimée) est supérieure à un seuil prédéfini sur le graphique, le modèle prédit que l'instance appartient à cette classe. Si la probabilité estimée est inférieure au seuil prédéfini, le modèle prédit que l'instance n'appartient pas à la classe.

L'équation de la régression logistique est similaire à celle de la régression linéaire, où les valeurs d'entrée sont combinées linéairement pour prédire une valeur de sortie à l'aide de poids ou de coefficients. Cependant, contrairement à la régression linéaire, la valeur de sortie modélisée ici est une valeur binaire (0 ou 1) plutôt qu'une valeur numérique.

Les hypothèses clés de la régression logistique sont les suivantes :

La variable dépendante/réponse est binaire ou dichotomique.
Il n'y a pas ou peu de multicolinéarité entre les variables prédictives/explicatives.
Les variables indépendantes ont une relation linéaire avec les logarithmes des cotes.
Un échantillon de grande taille est préférable.
Il n'y a pas de valeurs aberrantes extrêmes dans l'ensemble de données.
Les observations sont indépendantes les unes des autres.

Types de régression logistique avec exemples

La régression logistique peut être classée en régression logistique binaire, multinomiale et ordinale. Chaque type diffère des autres en termes d'exécution et de théorie.

Régression logistique binaire : La régression logistique binaire prédit la relation entre les variables indépendantes et la variable dépendante binaire. Par exemple, elle peut être utilisée pour décider d'accorder ou non un prêt à un client bancaire, évaluer le risque de cancer ou prédire la victoire d'une équipe lors d'un match de football.
Régression logistique multinomiale : Ce type de régression est utilisé lorsque la variable dépendante catégorique a plus de deux résultats discrets. Par exemple, il peut être utilisé pour prédire le type de transport le plus populaire en 2040 ou pour estimer le type de nourriture consommée par les animaux de compagnie.
Régression logistique ordinale : La régression logistique ordinale s'applique lorsque la variable dépendante est ordonnée. Par exemple, elle peut être utilisée pour prédire la taille d'une chemise formelle, les réponses à un sondage ou les scores à un test de mathématiques.

Meilleures pratiques pour la régression logistique en 2022

Pour obtenir un modèle précis en régression logistique, il est important de suivre certaines meilleures pratiques, de la sélection des variables indépendantes à la validation des résultats du modèle. Voici quelques-unes des meilleures pratiques pour la régression logistique en 2022 :

Identifier les variables dépendantes pour assurer la cohérence du modèle.
Comprendre les exigences techniques du modèle.
Estimer le modèle et évaluer la qualité de l'ajustement.
Interpréter correctement les résultats.
Valider les résultats observés.

Ces meilleures pratiques permettent d'obtenir des résultats fiables et de maximiser l'efficacité de la régression logistique.

En conclusion, la régression logistique est un outil puissant pour la classification binaire et la prédiction de probabilités. En suivant les meilleures pratiques, il est possible de construire des modèles précis et fiables. La régression logistique est largement utilisée dans de nombreux domaines, tels que la médecine, la finance et la recherche scientifique, pour prendre des décisions éclairées basées sur des données.