Що таке t-тест?
T-тест — це перше, що запускають при будь-якому A/B-тесті. Типовий приклад: компанія змінює кнопку оформлення замовлення і конверсія ніби зростає на 2%, але t-тест показує p = 0,34 — тобто різниця випадкова. Без цього тесту компанія впровадила б зміну, яка нічого не дає. T-тест був створений Вільямом Сілі Госсетом у 1908 році під псевдонімом «Стьюдент» для аналізу малих вибірок на пивоварні Guinness. T-тест залишається найпоширенішим статистичним критерієм у науковій літературі.
При інтерпретації t-тесту варто дивитися на два числа — t-статистику і p-значення, решта — контекст. Чим більша t-статистика, тим далі середні одне від одного відносно шуму в даних. T-статистика вимірює різницю між середніми в одиницях стандартної похибки, а p-значення показує ймовірність спостерігати таку або більшу різницю за умови, що реального ефекту немає. T-тест залишається одним із найчастіше використовуваних статистичних інструментів серед дослідників та аналітиків даних.
Типи t-тестів
Одновибірковий t-тест
Класичний приклад одновибіркового t-тесту — перевірка, чи відповідає середня маса деталей із верстата заявленим 150 грамам. Цей тест порівнює середнє однієї вибірки з відомим або гіпотетичним значенням генеральної сукупності. Одновибірковий t-тест найчастіше застосовується у контролі якості виробництва та перевірці відповідності стандартам.
t = (x̄ - μ₀) / (s / √n)
Двовибірковий t-тест (Велча)
Якщо дисперсії у двох групах різні — наприклад, при порівнянні рівня тривожності між 45 студентами денної і 28 заочної форми — тест Велча дає надійніші результати за класичний Стьюдента. Тест Велча порівнює середні двох незалежних груп без припущення рівних дисперсій, коригуючи ступені свободи за рівнянням Велча-Саттертвейта. Сучасні рекомендації зі статистики радять завжди використовувати тест Велча замість класичного, оскільки при рівних дисперсіях обидва тести дають практично однаковий результат, а при нерівних — класичний Стьюдент завищує частку хибнопозитивних висновків.
t = (x̄₁ - x̄₂) / √(s₁²/n₁ + s₂²/n₂)
Парний t-тест
Типовий приклад парного t-тесту — вимірювання артеріального тиску у пацієнтів до і після курсу лікування. Якщо парний t-тест показує значуще зниження з p < 0,001, це свідчить про реальний ефект препарату. Парний t-тест порівнює два повʼязаних вимірювання на тих самих обʼєктах, обчислюючи різницю для кожної пари і перевіряючи, чи відрізняється середня різниця від нуля. Парний t-тест широко використовується у систематичних оглядах медичних досліджень для аналізу ефективності лікування типу «до і після».
t = d̄ / (s_d / √n)
Часті запитання
Коли використовувати t-тест, а коли z-тест?
Просте правило: якщо ви не знаєте стандартне відхилення всієї сукупності — а ви його майже ніколи не знаєте — використовуйте t-тест. T-тест застосовується при малих вибірках (n < 30) або коли σ генеральної сукупності невідоме. Z-тест теоретично працює при великих вибірках з відомим σ, але на практиці переважна більшість реальних досліджень використовують t-тест саме через невідомість популяційних параметрів.
Чому тест Велча є стандартним?
Не випадково функція t.test() у R за замовчуванням робить саме тест Велча. Тест Велча не вимагає припущення рівних дисперсій між групами. Численні симуляційні дослідження показали, що при рівних дисперсіях тест Велча лише мінімально менш потужний за Стьюдента, а при нерівних — Стьюдент може завищувати помилку першого роду значно вище номінальних 5%. Тому більшість сучасних статистичних програм — R, Python scipy, JASP — використовують Велча за замовчуванням.