Що таке хі-квадрат тест?
Карл Пірсон опублікував хі-квадрат тест у 1900 році в журналі Philosophical Magazine, і з того часу це перший інструмент, до якого звертаються при аналізі категорійних даних. Хі-квадрат тест порівнює спостережувані частоти з очікуваними і визначає, чи відхилення від очікуваного розподілу є статистично значущим, чи його можна пояснити випадковим шумом вибірки. Формула проста: для кожної категорії обчислити (спостережуване мінус очікуване) у квадраті, поділити на очікуване, і підсумувати. Результат підпорядковується розподілу хі-квадрат зі ступенями свободи, що залежать від кількості категорій.
Хі-квадрат тест зустрічається всюди — від генетики до маркетингу — тому що категорійні дані є найпоширенішим типом даних на практиці. Відповіді на опитування, результати лікування, вподобання клієнтів, демографічні розподіли — для безперервних вимірювань використовують t-тест, але щойно дані потрапляють у категорії, хі-квадрат стає основним аналітичним інструментом.
Типи хі-квадрат тестів
Тест на відповідність
Перевіряє, чи розподіл однієї категорійної змінної відповідає теоретичному. Класичний приклад — кинути кубик 600 разів і перевірити, чи кожна грань випадає приблизно 100 разів. Можна тестувати не лише рівномірний розподіл, а будь-який заданий очікуваний розподіл.
χ² = Σ((Oᵢ - Eᵢ)² / Eᵢ), df = k - 1
Тест незалежності
Перевіряє, чи повʼязані дві категорійні змінні в таблиці спряженості. Наприклад, чи є звʼязок між групою лікування та результатом одужання, або між статтю та вподобанням продукту. Очікувані частоти обчислюються з маргінальних сум рядків і стовпців.
χ² = ΣΣ((Oᵢⱼ - Eᵢⱼ)² / Eᵢⱼ), df = (r-1)(c-1)
Часті запитання
Що таке хі-квадрат тест?
Хі-квадрат тест порівнює спостережувані частоти з очікуваними в категорійних даних. Карл Пірсон опублікував його у 1900 році саме для цієї задачі — коли дані представлені підрахунками за категоріями, а не безперервними вимірюваннями, хі-квадрат є стандартним першим кроком аналізу.
Коли використовувати тест на відповідність, а коли тест незалежності?
Тест на відповідність — для однієї змінної: чи є кубик чесним, чи відповідають відповіді на опитування очікуваним пропорціям. Тест незалежності — для двох змінних: чи повʼязані група лікування і результат, чи може картина в таблиці спряженості бути пояснена лише випадковістю.