Що таке аналіз потужності?
«Статистична потужність» звучить грізніше, ніж є насправді. Потужність — це ймовірність того, що ваше дослідження виявить реальний ефект, якщо він існує. Встановлюєте ціль 0.80 — це означає, що ви хочете 80% шансів зафіксувати той ефект, який шукаєте. Показник нижче 0.50 — і ви фактично кидаєте монетку, чи взагалі зможете щось знайти. Це доволі невдала основа для місяців збирання даних.
Калькулятор вище розв’язує одне з чотирьох невідомих, коли ви вводите три інші. Режими згори: потрібний розмір вибірки, досягнута потужність або мінімальний виявний ефект. Тут розглядається родина t-тестів — одновибірковий, двовибірковий незалежний (рівна дисперсія, рівні групи) і парний — з референсними значеннями, що збігаються з G*Power 3.1.
Розмір ефекту: конвенції та їхні межі
d Коена — це інструмент, за яким тягнеться вся галузь, і критики довкола нього не бракує. A Power Primer (Psychological Bulletin 112(1):155-159, DOI 10.1037/0033-2909.112.1.155) задав пороги 0.2 / 0.5 / 0.8 як малий / середній / великий. Використовуйте ці цифри лише тоді, коли опублікований метааналіз у вашій темі не пропонує чогось конкретнішого.
Застосовувати ярлики Коена скрізь поспіль перестало бути нормою. Фундер і Озер у 2019 році виклали суть проблеми — d, що має значення у даних про смертність, у психофізиці буде шумом. Орієнтири беріть із роботи по вашому конкретному показнику, а не з таблиці 1988 року.
Як працює математика
Параметр нецентральності δ
Двовибірковий (рівне n): δ = d · √(n / 2)
Одновибірковий і парний: δ = d · √n
δ показує, наскільки далеко розподіл t-статистики зсувається від нуля, коли альтернативна гіпотеза вірна. Більше d або більше n підвищують δ, і тест частіше відхиляє H₀.
Ступені свободи
Двовибірковий: df = 2n − 2
Одновибірковий і парний: df = n − 1
n — на одну групу в двовибірковому тесті, загальне (або кількість пар) в інших випадках.
Нормальна апроксимація (старт)
n ≈ 2 · (zα/2 + zβ)² / d² (на групу, двовибірковий)
n ≈ (zα/2 + zβ)² / d² (одновибірковий, парний)
Калькулятор починає з цієї замкненої форми, потім уточнює результат реальним t-критичним значенням при поточному df. Фінальне n збільшується на одиницю, якщо треба, щоб гарантовано досягти цільової потужності, а не зупинитися на крок раніше.
Запускайте це ще до збирання даних
Аналіз потужності — найдешевша страховка в дослідженні. 15 хвилин розрахунку до набору учасників скажуть вам, чи має запланована вибірка взагалі шанси знайти той ефект, який вас цікавить. Пропускаєте цей крок — ризикуєте провести дослідження, проаналізувати дані, побачити p > 0.05 і не зрозуміти, чи ефект малий, чи просто невидимий при цьому обсязі вибірки. Це марна витрата часу, яку розрахунок на старті спіймав би одразу.
Цифра вибірки, яку просить калькулятор, може бути неприємною. Щоб виявити d = 0.2 при 80% потужності у двовибірковому t-тесті, треба 394 учасника на групу — 788 загалом. Якщо це не вписується у бюджет, аналіз усе одно корисний: справжні опції — виміряти чутливіший показник, узяти ефективніший дизайн (within-subjects сильніший за between-subjects за потужністю) або визнати, що розмір ефекту з літератури не стосується вашої конкретної ситуації.
Пастка post-hoc потужності
Не запускайте post-hoc потужність. Хоеніґ і Гайсі виклали суть у 2001 році — ретроспективна потужність, обчислена зі спостереженого розміру ефекту, це просто p-значення під іншим соусом. Вона не додає жодної нової інформації до самого тесту значущості. Їхня стаття The Abuse of Power у The American Statistician 55(1):19-24 (DOI 10.1198/000313001300339897) досі залишається найчіткішим викладом.
Після незначущого результату корисне питання інше: який ефект реально зібрана вибірка могла виявити? Підставте своє n у режим «Виявний ефект» вище. Відповідь дає конкретну нижню межу на ефекти, які дослідження могло зловити — це набагато чесніший звіт, ніж будь-яке post-hoc значення потужності.
Поширені помилки
- Використовувати спостережений розмір ефекту для планування наступного дослідження: показники з малих досліджень шумні і зсунуті вгору через селективність публікацій. Або розширюйте довірчий інтервал навколо оцінки, перш ніж підставляти її назад, або беріть меншу d, обґрунтовану теорією.
- Сприймати 0.5 як «середнє зусилля»: d = 0.5 — середнє за таблицею Коена. Це ще не каже, чи є такий ефект правдоподібним у вашій темі. Опубліковані метааналізи майже завжди кращий орієнтир.
- Припускати рівну дисперсію та рівне n, коли ні те, ні інше не так: цей калькулятор припускає обидва. Якщо у вас нерівні n або дисперсії, Welch-поправки дадуть трохи інший цільовий розмір — зазвичай різниця в кілька учасників, але варто знати.
- Рахувати потужність після тесту: див. розділ про post-hoc вище. Замість цього використовуйте режим «Виявний ефект» — він відповідає на питання, яке справді має відповідь.
- Ігнорувати надійність вимірювання: послаблення через ненадійний інструмент роздуває той розмір вибірки, який вам насправді треба. Якщо надійність інструменту 0.7, d = 0.5 на справжньому конструкті виглядає як d = 0.35 на виміряній шкалі, і n відповідно зростає.
Поширені запитання
Що означає статистична потужність?
Потужність — це ймовірність того, що ваше дослідження виявить реальний ефект, коли він існує. Встановлюєте 0.80 — означає, що за дійсного ефекту припущеного розміру ви маєте 80% шансів отримати значущий результат. Решта 20% — помилка другого роду, пропуск того, що насправді є.
Чому саме 0.80 береться за цільову потужність?
Коен запропонував 0.80 як розумну нижню межу, що балансує помилкові негативи й вартість збору даних, — без жодної особливої магії в цій цифрі. Журнали в кількох дисциплінах відтоді вбудували її в очікування рецензентів. Цільова 0.90 або 0.95 доречна, коли пропуск ефекту коштує багато — клінічні випробування і діагностичні дослідження часто так і роблять.
Який розмір ефекту ввести?
Свіжі метааналізи у вашій темі — найкраще джерело. Якщо в літературі нічого порівнюваного немає, значення 0.2 / 0.5 / 0.8 за Коеном — резервний варіант, але сприймайте його як здогадку: сам Коен так його і позиціонував.
Чи збігається цей калькулятор із G*Power?
Для t-тестів — так, точність ±1 учасник для стандартних комбінацій α і потужності. Алгоритм використовує зсув центрального t як апроксимацію нецентрального t CDF, похибка менше 0.2% для n > 10. Випадкова різниця в одну особу виникає через різні апроксимації, а не методологічну розбіжність.
Чи можна використовувати для ANOVA, кореляції або хі-квадрат?
Поки що ні — ця сторінка охоплює лише родину t-тестів (одновибірковий, двовибірковий незалежний, парний). Для F-тестів і категоріальних методів параметри нецентральності інші — Коенове f для ANOVA, w для хі-квадрат, q для часток — і заслуговують власного калькулятора в майбутньому.
Чи варто запускати post-hoc аналіз потужності?
Ні. Хоеніґ і Гайсі показали, що ретроспективна потужність — це просто p-значення під іншим соусом; вона не здатна відрізнити «у нас була низька потужність» від «ефект справді малий». Замість цього використовуйте режим «Виявний ефект» вище — він відповідає на питання, яке має відповідь.