Co to jest dobroć dopasowania?
Test dobroci dopasowania jest statystycznym testem hipotezy w celu sprawdzenia, jak dobrze przykładowe dane pasują do rozkładu z populacji o rozkładzie normalnym. Innymi słowy, test ten pokazuje, czy dane z próbki reprezentują dane, których można by się spodziewać w rzeczywistej populacji, czy też są one w jakiś sposób skośne. Dobroć dopasowania określa rozbieżność pomiędzy obserwowanymi wartościami a tymi, które byłyby oczekiwane od modelu w przypadku rozkładu normalnego.
Istnieje wiele metod określania dobroci dopasowania. Niektóre z najbardziej popularnych metod stosowanych w statystyce obejmują test chi kwadrat, test Kołmogorowa-Smirnowa, test Andersona-Darlinga oraz test Shipira-Wilka.
Kluczowe wnioski
- Testy dobroci dopasowania są testami statystycznymi mającymi na celu określenie, czy zbiór obserwowanych wartości pasuje do tych oczekiwanych w ramach obowiązującego modelu.
- Istnieje wiele rodzajów testów dobroci dopasowania, ale najbardziej powszechnym jest test chi kwadrat.Test chi kwadrat określa, czy istnieje związek między danymi kategorycznymi.
- Test Kołmogorowa-Smirnowa – stosowany dla dużych próbek – określa, czy próbka pochodzi z określonego rozkładu populacji.
- Testy dobroci dopasowania mogą pokazać, czy dane z próbki pasują do oczekiwanego zestawu danych z populacji o rozkładzie normalnym.
Zrozumienie testu dobroci dopasowania
Testy dobroci dopasowania są metodami statystycznymi często używanymi do wnioskowania o obserwowanych wartościach. Testy te określają, w jakim stopniu wartości rzeczywiste są powiązane z wartościami przewidywanymi w modelu, a gdy są wykorzystywane w procesie podejmowania decyzji, testy dobroci dopasowania mogą pomóc w przewidywaniu przyszłych trendów i wzorców.
Najpopularniejszym testem dobroci dopasowania jest test chi kwadrat, zwykle stosowany dla rozkładów dyskretnych. Test chi kwadrat jest stosowany wyłącznie dla danych umieszczonych w klasach (przedziałach) i wymaga wystarczającej wielkości próby, aby uzyskać dokładne wyniki.
Testy dobroci dopasowania są powszechnie stosowane do badania normalności reszt lub do określenia, czy dwie próbki są zbierane z identycznych rozkładów.
Rodzaje testów dobroci dopasowania
Test chi kwadrat
Test chi kwadrat, znany również jako test chi kwadrat na niezależność, jest metodą statystyki wnioskowania, która testuje ważność twierdzenia o populacji w oparciu o próbę losową. Nie wskazuje on jednak rodzaju ani intensywności związku. Na przykład, nie stwierdza, czy związek jest pozytywny czy negatywny.
Aby zakwalifikować się do testu chi kwadrat dla niezależności, zmienne muszą się wzajemnie wykluczać.
Aby obliczyć chi kwadrat goodness-of-fit, konieczne jest ustalenie pożądanego poziomu istotności alfa (np, jeśli twój poziom ufności wynosi 95% lub .95, to alfa wynosi .05), zidentyfikować zmienne kategoryczne do przetestowania i zdefiniować hipotezy dotyczące związków między nimi. Hipoteza zerowa stwierdza, że między zmiennymi nie istnieje żaden związek, a hipoteza alternatywna zakłada, że związek istnieje. Częstość obserwowanych wartości jest mierzona, a następnie używana wraz z wartościami oczekiwanymi i stopniami swobody do obliczenia chi kwadrat. Jeśli wynik jest niższy niż alfa, hipoteza zerowa jest nieważna, co wskazuje na istnienie związku między zmiennymi.
Test Kołmogorowa-Smirnowa
Nazwany na cześć rosyjskich matematyków Andrieja Kołmogorowa i Nikołaja Smirnowa, test Kołmogorowa-Smirnowa (znany również jako test K-S) jest metodą statystyczną, która określa, czy próbka pochodzi z określonego rozkładu w obrębie populacji. Test Kołmogorowa-Smirnowa – zalecany dla dużych prób (np. ponad 2000) – jest nieparametryczny, co oznacza, że nie opiera się na żadnym rozkładzie, aby być ważnym. Jego celem jest udowodnienie hipotezy zerowej, którą jest próba o rozkładzie normalnym.
W przeciwieństwie do testu chi kwadrat, test Kołmogorowa-Smirnowa stosuje się do rozkładów ciągłych. Podobnie jak chi-square, wykorzystuje on hipotezę zerową i alternatywną oraz poziom istotności alfa. Hipoteza zerowa wskazuje, że dane są zgodne z określonym rozkładem w populacji, a alternatywna, że dane nie są zgodne z określonym rozkładem w populacji. Poziom alfa jest używany do określenia wartości krytycznej stosowanej w teście.
Obliczona statystyka testu, często oznaczana jako D, określa, czy hipoteza zerowa jest przyjęta czy odrzucona. Jeśli D jest większe niż wartość krytyczna przy alfa, hipoteza zerowa zostaje odrzucona. Jeśli D jest mniejsze od wartości krytycznej, hipoteza zerowa jest przyjęta, wskazując
Test Shipiro-Wilka
Test Shipiro-Wilka określa, czy próbka ma rozkład normalny. Używając próbki z jedną zmienną danych ciągłych, test Shipiro-Wilka sprawdza tylko normalność. Jest on zalecany dla małych prób do 2000. Podobnie jak pozostałe, wykorzystuje on alfa i formułuje dwie hipotezy: zerową i alternatywną. Hipoteza zerowa mówi, że próbka pochodzi z rozkładu normalnego, podczas gdy hipoteza alternatywna mówi, że próbka nie pochodzi z rozkładu normalnego.
Test Shipiro-Wilka wykorzystuje wykres prawdopodobieństwa zwany wykresem QQ. Wykres ten przedstawia wizualnie dwa zestawy kwantyli na osi y, ułożone od najmniejszego do największego. Jeśli każdy kwantyl pochodzi z tego samego rozkładu, wykres rozrzutu będzie wyświetlał liniową serię działek. Test Shipiro-Wilka wykorzystuje QQ Plot do oszacowania wariancji. Używając wariancji QQ Plot wraz z oszacowaną wariancją populacji, można określić, czy próbka należy do rozkładu normalnego. Jeżeli iloraz obu wariancji jest równy lub zbliżony do 1, to hipotezę zerową można przyjąć. Jeśli jest znacznie niższy niż 1, można ją odrzucić.
Przykład testu dobroci dopasowania
Na przykład, mała siłownia społeczna może działać przy założeniu, że ma najwyższą frekwencję w poniedziałki, wtorki i soboty, średnią frekwencję w środy i czwartki oraz najniższą frekwencję w piątki i niedziele. Na podstawie tych założeń, siłownia zatrudnia pewną liczbę pracowników każdego dnia, aby sprawdzić w członków, czyste obiekty, oferują usługi szkoleniowe i uczyć classes.
Jednak siłownia nie działa dobrze finansowo i właściciel chce wiedzieć, czy te założenia frekwencji i poziomy zatrudnienia są poprawne. Właściciel postanawia policzyć liczbę uczestników siłowni każdego dnia przez sześć tygodni. On może następnie porównać siłowni założonej frekwencji z jego obserwowanej frekwencji przy użyciu chi kwadratu goodness-of-fit test na przykład. Z nowymi danymi, może określić, jak najlepiej zarządzać siłownią i poprawić rentowność.
Goodness-of-Fit FAQs
What Does Goodness-of-Fit Mean?
Goodness-of-Fit jest statystycznym testem hipotezy używanym do sprawdzenia, jak dokładnie obserwowane dane odzwierciedlają oczekiwane dane. Testy dobroci dopasowania mogą pomóc określić czy próbka ma rozkład normalny, czy zmienne kategoryczne są powiązane, lub czy próbki losowe mają ten sam rozkład.
Dlaczego dobroć dopasowania jest ważna?
Testy dobroci dopasowania pomagają określić, czy obserwowane dane są zgodne z oczekiwaniami. Decyzje mogą być podejmowane w oparciu o wynik przeprowadzonego testu hipotezy. Na przykład, sprzedawca detaliczny chce wiedzieć, jaka oferta produktów przemawia do młodych ludzi. Sprzedawca przeprowadza ankietę wśród losowo wybranych osób starszych i młodych, aby ustalić, który produkt jest preferowany. Używając chi kwadrat, ustalają, że z 95% pewnością istnieje związek pomiędzy produktem A a młodymi ludźmi. Na podstawie tych wyników można stwierdzić, że próba ta reprezentuje populację młodych dorosłych. Marketerzy detaliczni mogą to wykorzystać do zreformowania swoich kampanii.
Co to jest dobroć dopasowania w teście chi kwadrat?
Test chi kwadrat sprawdza czy istnieją związki pomiędzy zmiennymi kategorycznymi i czy próba reprezentuje całość. Szacuje on jak blisko obserwowane dane odzwierciedlają oczekiwane dane, lub jak dobrze pasują.
Jak wykonać test dobroci dopasowania?
Test dobroci dopasowania składa się z różnych metod testowania. Cel testu pomoże określić, którą metodę należy zastosować. Na przykład, jeśli celem jest zbadanie normalności na stosunkowo małej próbie, test Shipiro-Wilka może być odpowiedni. Jeżeli chcemy ustalić, czy próbka pochodzi z określonego rozkładu w populacji, użyjemy testu Kołmogorowa-Smirnowa. Każdy test wykorzystuje swój własny, unikalny wzór. Jednakże, mają one wspólne cechy, takie jak hipoteza zerowa i poziom istotności.
Podsumowanie
Testy dobroci dopasowania określają, jak dobrze dane z próbki pasują do tego, co jest oczekiwane od populacji. Na podstawie danych z próbki zbierana jest zaobserwowana wartość i porównywana z obliczoną wartością oczekiwaną przy użyciu miary rozbieżności. Istnieją różne testy hipotezy dobroci dopasowania, w zależności od tego, jakiego wyniku poszukujemy.
Wybór właściwego testu dobroci dopasowania w dużej mierze zależy od tego, co chcemy wiedzieć o próbce i jak duża jest próbka. Na przykład, jeśli chcemy wiedzieć, czy zaobserwowane wartości dla danych kategorycznych odpowiadają wartościom oczekiwanym dla danych kategorycznych, używamy chi kwadrat. Jeśli chcemy wiedzieć, czy mała próbka ma rozkład normalny, korzystny może być test Shipiro-Wilka. Istnieje wiele dostępnych testów pozwalających określić dobroć dopasowania.