Як читати таблицю хі-квадрат
У лівому стовпці розташовані ступені свободи (df). Кожен заголовок стовпця вгорі — це рівень значущості α (ймовірність правого хвоста). Число на перетині рядка та стовпця — критичне значення, яке повинна перевищити ваша хі-квадрат статистика, щоб відхилити нульову гіпотезу на цьому рівні значущості.
Наприклад, ви провели тест на відповідність з 5 категоріями, тобто df = 4, і хочете перевірити на рівні α = 0.05. Знайдіть рядок 4 і стовпець 0.05 — на перетині буде 9.488. Якщо ваше χ² перевищує 9.488, дані дають достатньо підстав відхилити нульову гіпотезу на рівні 5%. Карл Пірсон запропонував цей тест у 1900 році, і з того часу ця таблиця є невід'ємною частиною курсів статистики.
Коли використовується розподіл хі-квадрат
Розподіл хі-квадрат зустрічається у трьох основних контекстах. Тест на відповідність перевіряє, чи збігаються спостережувані частоти з гіпотетичним розподілом — df дорівнює кількості категорій мінус один. Тест незалежності з'ясовує, чи пов'язані дві категоріальні змінні в таблиці спряженості — df дорівнює (рядки − 1) × (стовпці − 1). Тест дисперсії порівнює вибіркову дисперсію з гіпотетичною популяційною — df дорівнює n − 1.
Припущення тесту
Хі-квадрат тест працює з категоріальними даними (підрахунками), а не з безперервними вимірюваннями. Кожне спостереження повинно бути незалежним — одна особа не може з'являтися одночасно в двох комірках. Очікувані частоти мають бути не менше 5 у кожній комірці — інакше наближення хі-квадрат стає ненадійним і краще використовувати точний тест Фішера. Кокрен опублікував це правило в 1954 році, і воно залишається стандартом у більшості підручників.
Поширені критичні значення
Наведена нижче таблиця охоплює комбінації ступенів свободи та рівнів значущості, які зустрічаються в переважній більшості наукових досліджень. Для df понад 30 використовуйте інтерактивну таблицю вгорі сторінки.
| df | α = 0.10 | α = 0.05 | α = 0.01 |
|---|---|---|---|
| 1 | 2.706 | 3.841 | 6.635 |
| 2 | 4.605 | 5.991 | 9.210 |
| 3 | 6.251 | 7.815 | 11.345 |
| 4 | 7.779 | 9.488 | 13.277 |
| 5 | 9.236 | 11.070 | 15.086 |
| 6 | 10.645 | 12.592 | 16.812 |
| 7 | 12.017 | 14.067 | 18.475 |
| 8 | 13.362 | 15.507 | 20.090 |
| 9 | 14.684 | 16.919 | 21.666 |
| 10 | 15.987 | 18.307 | 23.209 |
| 12 | 18.549 | 21.026 | 26.217 |
| 15 | 22.307 | 24.996 | 30.578 |
| 20 | 28.412 | 31.410 | 37.566 |
| 25 | 34.382 | 37.652 | 44.314 |
| 30 | 40.256 | 43.773 | 50.892 |
Критичні значення зростають разом зі ступенями свободи, бо розподіл вищої розмірності потребує більшого χ², щоб досягти тієї самої ймовірності хвоста. При df = 1 значення 3.841 відповідає 95-му перцентилю, а при df = 30 той самий поріг становить 43.773. Різниця між α = 0.05 і α = 0.01 звужується зі зростанням df — розподіл наближається до нормального при великих ступенях свободи.
Повний приклад: від даних до висновку
Критичне значення стає зрозумілішим, коли воно вирішує реальне питання. Уявіть, що дослідник ринку опитує 400 покупців і записує, якому з п'яти брендів кожен віддає перевагу. Нульова гіпотеза проста: усі п'ять брендів однаково популярні, тож від кожного очікується по 80 виборів.
Підрахунки виходять нерівними — 90, 60, 104, 95 і 51. Статистика хі-квадрат вимірює, наскільки далеко цей розподіл відхиляється від рівних 80, підсумовуючи (спостережуване − очікуване)² / очікуване по всіх п'яти категоріях, і дає 26.775. Найбільший внесок робить один бренд: 51 вибір замість очікуваних 80 додає 10.51 окремо, тобто майже 40% усієї статистики.
П'ять категорій фіксують ступені свободи на df = 4, адже останній підрахунок визначається, щойно відомі інші чотири та загальна сума 400. Це веде вас до рядка 4 таблиці. На рівні α = 0.05 критичне значення дорівнює 9.488, і 26.775 перевищує його із запасом, тож бренди не однаково популярні, і нульову гіпотезу відхиляють на рівні 5%.
Воно долає й суворіші пороги: 13.277 на рівні α = 0.01 і навіть 18.467 на рівні α = 0.001. Саме це останнє порівняння пояснює, чому програми позначають результат як p < 0.001, а не як межовий — точне p-значення виходить близько 0.00002. Щоб виконати обчислення на власних даних замість зчитування порогів із таблиці, калькулятор хі-квадрат тесту робить кожен крок і одразу повертає статистику.
Критичні значення для великих ступенів свободи (df > 100)
Друковані таблиці зупиняються на df = 30 чи df = 100, бо закінчується папір, а не розподіл. Реальні пошуки йдуть значно далі: тести дисперсії на великих вибірках, порівняння моделей за логарифмом правдоподібності, таблиці спряженості з робочих даних. Інтерактивна таблиця вище містить точні рядки до df = 1000, а поле швидкого пошуку обчислює значення для будь-якого df до 10 000.
Два приклади просто з таблиці: при df = 337 критичне значення для α = 0.05 дорівнює 380.809, а при α = 0.01 зростає до 400.319. При df = 1423 і α = 0.05 — 1511.872. Ці числа отримані чисельним оберненням CDF хі-квадрат, без наближень — те саме обчислення, що виконує статистичний пакет.
Класичний обхідний шлях для великих df — наближення Вілсона–Гілферті, опубліковане 1931 року: χ²α ≈ df · (1 − 2/(9df) + zα·√(2/(9df)))³.
У порівнянні з точними значеннями воно тримається в межах двох десяткових знаків скрізь за df = 100 — саме ця точність тримала формулу в підручниках майже століття. Сьогодні вона потрібна хіба тоді, коли під рукою лише нормальна таблиця й олівець.
Часті запитання
Як знайти критичне значення за таблицею хі-квадрат?
Знайдіть ваші ступені свободи в лівому стовпці, потім перейдіть до стовпця з потрібним рівнем значущості α. Число на перетині — ваше критичне значення. Якщо статистика χ² з вашого тесту перевищує це число, відхиляєте нульову гіпотезу.
Який рівень значущості обрати?
В академічних дослідженнях стандартом є α = 0.05. Медичні та критичні для безпеки дослідження зазвичай використовують α = 0.01 або навіть α = 0.001. Пошукові дослідження інколи допускають α = 0.10. Вибір залежить від того, який ризик хибнопозитивного результату ви готові прийняти.
Яка різниця між таблицею хі-квадрат і тестом хі-квадрат?
Таблиця — це довідковий інструмент, який зіставляє df і α з критичними значеннями. Тест — це статистична процедура: збираєте дані, обчислюєте очікувані частоти, підсумовуєте (спостережуване − очікуване)² / очікуване по всіх комірках і порівнюєте результат з таблицею. Таблиця — лінійка, тест — вимірювання.
Що таке ступені свободи в тесті хі-квадрат?
Неправильне обчислення ступенів свободи — це найшвидший спосіб використати не той рядок таблиці і отримати хибний висновок.
Для тесту на відповідність з k категоріями df = k − 1. Для таблиці спряженості r × c df = (r − 1)(c − 1). Логіка однакова в обох випадках: коли знаєш усі значення, крім одного, і загальну суму — останнє значення визначається автоматично, тому воно не є «вільним».
Чому друковані таблиці хі-квадрат зупиняються на df = 100?
Навіть таблиця 10×10 дає лише df = 81, а при df ≈ 30 і вище розподіл настільки наближається до нормального, що статистики паперової доби обирали наближення замість додаткових сторінок.
Тут такого обмеження немає: інтерактивна таблиця містить точні рядки до df = 1000, а поле швидкого пошуку миттєво обчислює точне критичне значення для будь-якого df до 10 000.
Як знайти критичне значення для df = 337 (чи будь-якого великого df)?
Введіть 337 у поле швидкого пошуку над таблицею — воно поверне 380.809 для α = 0.05 і 400.319 для α = 0.01, обчислені точно, без наближень.
Такі запити зазвичай породжують тести дисперсії чи порівняння моделей на великих вибірках, де df припадає на значення, яких не покриває жодна друкована таблиця. Будь-який df до 10 000 працює так само.
Тест хі-квадрат однобічний чи двобічний?
У тестах на відповідність і незалежність ви дивитесь лише на правий хвіст, тож пошук фактично однобічний — і це дивує багатьох, адже самі гіпотези звучать двобічно.
Причина суто механічна: піднесення (спостережуване − очікуване) до квадрата стирає напрямок кожної різниці, тому відхилення в будь-який бік штовхає χ² угору, а не вниз. Велика статистика означає лише «далеко від очікуваного», і єдине критичне значення, з яким ви порівнюєте, — верхнє в таблиці.
Пов'язані калькулятори
Калькулятор хі-квадрат тесту
Тест на відповідність та тест незалежності
Калькулятор P-значення
Обчисліть точне p-значення зі статистики тесту
Калькулятор T-тесту
Одновибірковий, двовибірковий та парний t-тести
Таблиця Z-оцінок
Довідкова таблиця стандартного нормального розподілу
Таблиця t-розподілу
Критичні значення t Стьюдента за df