La qualité de l’ajustement

Qu’est-ce que la qualité de l’ajustement ?

Le test de qualité d’ajustement est un test d’hypothèse statistique permettant de voir dans quelle mesure les données d’un échantillon correspondent à une distribution provenant d’une population ayant une distribution normale. Dit autrement, ce test montre si vos données d’échantillon représentent les données que vous vous attendez à trouver dans la population réelle ou si elles sont en quelque sorte asymétriques. La qualité de l’ajustement établit l’écart entre les valeurs observées et celles qui seraient attendues du modèle dans le cas d’une distribution normale.

Il existe de multiples méthodes pour déterminer la qualité de l’ajustement. Parmi les méthodes les plus populaires utilisées en statistique, citons le chi-deux, le test de Kolmogorov-Smirnov, le test d’Anderson-Darling et le test de Shipiro-Wilk.

Key Takeaways

  • Les tests de qualité d’ajustement sont des tests statistiques visant à déterminer si un ensemble de valeurs observées correspondent à celles attendues dans le cadre du modèle applicable.
  • Il existe plusieurs types de tests de qualité d’ajustement, mais le plus courant est le test du chi-deux.
  • Le chi-carré détermine si une relation existe entre des données catégorielles.
  • Le test de Kolmogorov-Smirnov – utilisé pour les grands échantillons – détermine si un échantillon provient d’une distribution spécifique d’une population.
  • Les tests d’adéquation peuvent vous montrer si les données de votre échantillon correspondent à un ensemble de données attendues d’une population à distribution normale.

Comprendre l’adéquation

Les tests d’adéquation sont des méthodes statistiques souvent utilisées pour faire des inférences sur les valeurs observées. Ces tests déterminent dans quelle mesure les valeurs réelles sont liées aux valeurs prédites dans un modèle, et lorsqu’ils sont utilisés dans la prise de décision, les tests de qualité d’ajustement peuvent aider à prédire les tendances et les modèles futurs.

Le test de qualité d’ajustement le plus courant est le test du chi-deux, généralement utilisé pour les distributions discrètes. Le test du chi-deux est utilisé exclusivement pour les données mises en classes (bins), et il nécessite une taille d’échantillon suffisante pour produire des résultats précis.

Les tests de qualité d’ajustement sont couramment utilisés pour tester la normalité des résidus ou pour déterminer si deux échantillons sont recueillis à partir de distributions identiques.

Types de tests d’adéquation

Test du chi carré

Le test du chi carré, également connu sous le nom de test d’indépendance du chi carré, est une méthode de statistique inférentielle qui teste la validité d’une affirmation faite sur une population à partir d’un échantillon aléatoire. Cependant, il n’indique pas le type ou l’intensité de la relation. Par exemple, il ne permet pas de conclure si la relation est positive ou négative.

Pour être admissibles au test du chi carré pour l’indépendance, les variables doivent être mutuellement exclusives.

Pour calculer la qualité de l’ajustement du chi carré, il est nécessaire de définir le niveau de signification alpha souhaité (par ex, si votre niveau de confiance est de 95 % ou de 0,95, alors le coefficient alpha est de 0,05), identifier les variables catégorielles à tester et définir des énoncés d’hypothèses sur les relations entre elles. L’hypothèse nulle affirme qu’il n’existe aucune relation entre les variables, et l’hypothèse alternative suppose qu’une relation existe. La fréquence des valeurs observées est mesurée et ensuite utilisée avec les valeurs attendues et les degrés de liberté pour calculer le chi-deux. Si le résultat est inférieur à alpha, l’hypothèse nulle est invalide, ce qui indique qu’une relation existe entre les variables.

Test de Kolmogorov-Smirnov

Nommé d’après les mathématiciens russes Andrey Kolmogorov et Nikolai Smirnov, le test de Kolmogorov-Smirnov (également connu sous le nom de test K-S) est une méthode statistique qui détermine si un échantillon provient d’une distribution spécifique au sein d’une population. Le test de Kolmogorov-Smirnov – recommandé pour les grands échantillons (par exemple, plus de 2000) – est non paramétrique, ce qui signifie qu’il ne repose sur aucune distribution pour être valide. Il se concentre L’objectif est de prouver l’hypothèse nulle, qui est l’échantillon de la distribution normale.

Contrairement au test du chi-deux, le test de Kolmogorov-Smirnov s’applique aux distributions continues. Comme le chi-deux, il utilise une hypothèse nulle et une hypothèse alternative et un niveau de signification alpha. L’hypothèse nulle indique que les données suivent une distribution spécifique au sein de la population, et l’hypothèse alternative indique que les données ne suivent pas une distribution spécifique au sein de la population. L’alpha sert à déterminer la valeur critique utilisée dans le test.

La statistique de test calculée, souvent désignée par D, détermine si l’hypothèse nulle est acceptée ou rejetée. Si D est supérieure à la valeur critique à alpha, l’hypothèse nulle est rejetée. Si D est inférieure à la valeur critique, l’hypothèse nulle est acceptée, indiquant

Test de Shipiro-Wilk

Le test de Shipiro-Wilk détermine si un échantillon suit une distribution normale. En utilisant un échantillon avec une variable de données continues, le test de Shipiro-Wilk vérifie uniquement la normalité. Il est recommandé pour les échantillons de petite taille, jusqu’à 2000. Comme les autres, il utilise alpha et forme deux hypothèses : nulle et alternative. L’hypothèse nulle indique que l’échantillon provient de la distribution normale, tandis que l’hypothèse alternative indique que l’échantillon ne provient pas de la distribution normale.

Le test de Shipiro-Wilk utilise un diagramme de probabilité appelé QQ Plot. Ce nuage de points affiche visuellement deux ensembles de quantiles sur l’axe des ordonnées, disposés du plus petit au plus grand. Si chaque quantile provient de la même distribution, le nuage de points affichera une série linéaire de tracés. Le test de Shipiro-Wilk utilise le QQ Plot pour estimer la variance. En utilisant la variance du QQ Plot ainsi que la variance estimée de la population, on peut déterminer si l’échantillon appartient à une distribution normale. Si le quotient des deux variances est égal ou proche de 1, alors l’hypothèse nulle peut être acceptée. Si elle est considérablement inférieure à 1, elle peut être rejetée.

Exemple de test d’adéquation

Par exemple, un petit gymnase communautaire pourrait fonctionner selon l’hypothèse qu’il a sa plus grande fréquentation les lundis, mardis et samedis, une fréquentation moyenne les mercredis et jeudis, et la plus faible fréquentation les vendredis et dimanches. Sur la base de ces hypothèses, la salle de sport emploie un certain nombre de membres du personnel chaque jour pour enregistrer les membres, nettoyer les installations, offrir des services d’entraînement et donner des cours.

Cependant, la salle de sport n’a pas de bons résultats financiers et le propriétaire veut savoir si ces hypothèses de fréquentation et ces niveaux de personnel sont corrects. Le propriétaire décide de compter le nombre de personnes fréquentant la salle de sport chaque jour pendant six semaines. Il peut ensuite comparer la fréquentation supposée du gymnase à la fréquentation observée en utilisant, par exemple, un test de qualité d’ajustement du chi carré. Avec les nouvelles données, il peut déterminer comment gérer au mieux la salle de sport et améliorer la rentabilité.

Foire aux questions sur la qualité de l’ajustement

Que signifie la qualité de l’ajustement ?

La qualité d’ajustement est un test d’hypothèse statistique utilisé pour voir dans quelle mesure les données observées reflètent les données attendues. Les tests de Goodness-of-Fit peuvent aider à déterminer si un échantillon suit une distribution normale, si les variables catégorielles sont liées ou si les échantillons aléatoires proviennent de la même distribution.

Pourquoi la Goodness-of-Fit est-elle importante ?

Les tests de Goodness-of-Fit permettent de déterminer si les données observées s’alignent sur ce qui est attendu. Des décisions peuvent être prises en fonction du résultat du test d’hypothèse effectué. Par exemple, un détaillant veut savoir quelle offre de produits attire les jeunes. Le détaillant interroge un échantillon aléatoire de personnes âgées et de jeunes pour déterminer quel produit est préféré. En utilisant le chi-deux, il identifie, avec un taux de confiance de 95 %, une relation entre le produit A et les jeunes. Sur la base de ces résultats, on peut déterminer que cet échantillon représente la population des jeunes adultes. Les spécialistes du marketing de détail peuvent s’en servir pour réformer leurs campagnes.

Qu’est-ce que la qualité de l’ajustement dans le test du chi-deux ?

Le test du chi-deux permet de savoir s’il existe des relations entre des variables catégorielles et si l’échantillon représente l’ensemble. Il estime à quel point les données observées reflètent les données attendues, ou à quel point elles s’ajustent.

Comment effectue-t-on le test d’adéquation ?

Le test d’adéquation se compose de différentes méthodes de test. L’objectif du test aidera à déterminer la méthode à utiliser. Par exemple, si le but est de tester la normalité sur un échantillon relativement petit, le test de Shipiro-Wilk peut convenir. Si l’on veut déterminer si un échantillon provient d’une distribution spécifique au sein d’une population, on utilisera le test de Kolmogorov-Smirnov. Chaque test utilise une formule qui lui est propre. Cependant, ils ont des points communs, tels qu’une hypothèse nulle et un niveau de signification.

La ligne de fond

Les tests d’adéquation déterminent dans quelle mesure les données de l’échantillon correspondent à ce qui est attendu d’une population. À partir des données de l’échantillon, une valeur observée est recueillie et comparée à la valeur attendue calculée à l’aide d’une mesure de divergence. Il existe différents tests d’hypothèse d’adéquation selon le résultat que vous recherchez.

Choisir le bon test d’adéquation dépend en grande partie de ce que vous voulez savoir sur un échantillon et de la taille de l’échantillon. Par exemple, si vous voulez savoir si les valeurs observées pour des données catégorielles correspondent aux valeurs attendues pour des données catégorielles, utilisez le chi-carré. Si vous voulez savoir si un petit échantillon suit une distribution normale, le test de Shipiro-Wilk peut être avantageux. Il existe de nombreux tests permettant de déterminer la qualité de l’ajustement.

.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *