Що таке t-тест Велча?

T-тест Велча не припускає рівних дисперсій між групами, натомість коригує ступені свободи за рівнянням Велча-Саттертвейта. При аналізі A/B-тестів класичний t-тест Стьюдента може давати хибні результати, бо дисперсії в контрольній і тестовій групах зазвичай різні. Тест Велча зберігає коректний рівень помилки першого роду навіть при значній різниці дисперсій між групами, тоді як класичний тест Стьюдента може суттєво завищувати хибнопозитивні результати в таких умовах.

Калькулятор t-тесту — Безкоштовний онлайн інструмент

Виконайте t-тест для одної вибірки, двох вибірок або парних спостережень.

Що таке t-тест?

T-тест — це перше, що запускають при будь-якому A/B-тесті. Типовий приклад: компанія змінює кнопку оформлення замовлення і конверсія ніби зростає на 2%, але t-тест показує p = 0,34 — тобто різниця випадкова. Без цього тесту компанія впровадила б зміну, яка нічого не дає. T-тест був створений Вільямом Сілі Госсетом у 1908 році під псевдонімом «Стьюдент» для аналізу малих вибірок на пивоварні Guinness. T-тест залишається найпоширенішим статистичним критерієм у науковій літературі.

При інтерпретації t-тесту варто дивитися на два числа — t-статистику і p-значення, решта — контекст. Чим більша t-статистика, тим далі середні одне від одного відносно шуму в даних. T-статистика вимірює різницю між середніми в одиницях стандартної похибки, а p-значення показує ймовірність спостерігати таку або більшу різницю за умови, що реального ефекту немає. T-тест залишається одним із найчастіше використовуваних статистичних інструментів серед дослідників та аналітиків даних.

Типи t-тестів

Одновибірковий t-тест

Класичний приклад одновибіркового t-тесту — перевірка, чи відповідає середня маса деталей із верстата заявленим 150 грамам. Цей тест порівнює середнє однієї вибірки з відомим або гіпотетичним значенням генеральної сукупності. Одновибірковий t-тест найчастіше застосовується у контролі якості виробництва та перевірці відповідності стандартам.

t = (x̄ - μ₀) / (s / √n)

Двовибірковий t-тест (Велча)

Якщо дисперсії у двох групах різні — наприклад, при порівнянні рівня тривожності між 45 студентами денної і 28 заочної форми — тест Велча дає надійніші результати за класичний Стьюдента. Тест Велча порівнює середні двох незалежних груп без припущення рівних дисперсій, коригуючи ступені свободи за рівнянням Велча-Саттертвейта. Сучасні рекомендації зі статистики радять завжди використовувати тест Велча замість класичного, оскільки при рівних дисперсіях обидва тести дають практично однаковий результат, а при нерівних — класичний Стьюдент завищує частку хибнопозитивних висновків.

t = (x̄₁ - x̄₂) / √(s₁²/n₁ + s₂²/n₂)

Парний t-тест

Типовий приклад парного t-тесту — вимірювання артеріального тиску у пацієнтів до і після курсу лікування. Якщо парний t-тест показує значуще зниження з p < 0,001, це свідчить про реальний ефект препарату. Парний t-тест порівнює два повʼязаних вимірювання на тих самих обʼєктах, обчислюючи різницю для кожної пари і перевіряючи, чи відрізняється середня різниця від нуля. Парний t-тест широко використовується у систематичних оглядах медичних досліджень для аналізу ефективності лікування типу «до і після».

t = d̄ / (s_d / √n)

Часті запитання

Коли використовувати t-тест, а коли z-тест?

Просте правило: якщо ви не знаєте стандартне відхилення всієї сукупності — а ви його майже ніколи не знаєте — використовуйте t-тест. T-тест застосовується при малих вибірках (n < 30) або коли σ генеральної сукупності невідоме. Z-тест теоретично працює при великих вибірках з відомим σ, але на практиці переважна більшість реальних досліджень використовують t-тест саме через невідомість популяційних параметрів.

Чому тест Велча є стандартним?

Не випадково функція t.test() у R за замовчуванням робить саме тест Велча. Тест Велча не вимагає припущення рівних дисперсій між групами. Численні симуляційні дослідження показали, що при рівних дисперсіях тест Велча лише мінімально менш потужний за Стьюдента, а при нерівних — Стьюдент може завищувати помилку першого роду значно вище номінальних 5%. Тому більшість сучасних статистичних програм — R, Python scipy, JASP — використовують Велча за замовчуванням.

Ступені свободи (df)	7.92
Різниця середніх	8.6
Стандартна похибка	3.2955
Довірчий інтервал (95%)	[0.9881, 16.2119]
Середнє (Група 1)	86.6
Середнє (Група 2)	78

p < 0.001	✗
p < 0.01	✗
p < 0.05	✓
p < 0.1	✓

Калькулятор t-тесту

Результати

Що таке t-тест?

Типи t-тестів

Одновибірковий t-тест

Двовибірковий t-тест (Велча)

Парний t-тест

Часті запитання

Повʼязані калькулятори

Калькулятор стандартного відхилення

Середнє, медіана, мода