Tek örneklem, iki örneklem ve eşleştirilmiş t testleri için gerekli örneklem büyüklüğü, elde edilen güç veya en küçük tespit edilebilir etki büyüklüğünü hesaplayın.

Güç Analizi Nedir?

"İstatistiksel güç" kulağa göründüğünden çok daha az korkutucu bir kavram. Güç basitçe, ortada gerçek bir etki varken çalışmanızın bu etkiyi yakalama olasılığıdır. Hedefi 0.80 olarak ayarladığınızda, varsaydığınız büyüklükteki bir etki için %80 ihtimalle anlamlı sonuç istediğinizi söylemiş olursunuz. Değer 0.50'nin altına düştüğünde çalışma, bulmaya çalıştığı şeyi zaten tespit edebilecek durumda değildir — aylar süren veri toplama için iyi bir temel sayılmaz.

Yukarıdaki hesaplayıcı aynı matematiği üç yönde çalıştırır: etki büyüklüğü ve güç verildiğinde gereken örneklem büyüklüğü, örneklem ve etki verildiğinde elde edilen güç ve örneklem ile güç verildiğinde en küçük tespit edilebilir etki. Referans değerler G*Power 3.1 ile uyumludur — Faul, Erdfelder, Lang ve Buchner'ın G*Power 3 makalesi (Behavior Research Methods 39(2):175-191, DOI 10.3758/BF03193146) standart α ve güç kombinasyonlarında birer katılımcı hassasiyetiyle eşleşir.

Etki Büyüklüğü: Konvansiyonlar ve Sınırları

Standartlaştırılmış ortalama farkı olan Cohen'in d'si, her t-testi güç hesabının dayandığı etki büyüklüğü metriğidir. Cohen'in A Power Primer makalesi (Psychological Bulletin 112(1):155-159, DOI 10.1037/0033-2909.112.1.155) artık evrenselleşmiş eşikleri listeler: d = 0.2 küçük, d = 0.5 orta, d = 0.8 büyük. Bu eşikler özellikle ilkesel oldukları için değil, yerlerini alacak daha iyi bir şey çıkmadığı için hayatta kalmış. Cohen bunları alanınıza özgü bir referans bulunmadığında başvurulacak son çare olarak tanımlamıştı, evrensel kurallar olarak değil.

Funder ve Ozer (Advances in Methods and Practices in Psychological Science, DOI 10.1177/2515245919847202) 2019 tarihli incelemesinde bu noktayı net biçimde ortaya koydu: bağlamdan sıyrılmış "küçük" ve "büyük" etiketleri genellikle bilgilendirici değil, yanıltıcıdır. Ölüm oranlarıyla ilgili bir ilaç denemesinde d = 0.10 önemlidir. Aynı d, kavrama gücü ölçen bir deneyde gürültüdür. Cohen konvansiyonlarını gerçekten başka bir çıpanız yoksa kullanın.

Matematik Nasıl Çalışır?

Merkez dışılık parametresi δ

İki örneklem (eşit n): δ = d · √(n / 2)

Tek örneklem ve eşleştirilmiş: δ = d · √n

δ, alternatif hipotez doğru olduğunda t istatistiğinin dağılımının sıfırdan ne kadar uzağa kaydığını gösterir. d veya n büyüdükçe δ artar ve test H₀'ı reddetmeye daha yakın hale gelir.

Serbestlik derecesi

İki örneklem: df = 2n − 2

Tek örneklem ve eşleştirilmiş: df = n − 1

n, iki örneklem testinde grup başına, diğer durumlarda ise toplam (veya çift sayısı) anlamına gelir.

Normal yaklaşım (başlangıç)

n ≈ 2 · (z_α/2 + z_β)² / d² (iki örneklem, grup başına)

n ≈ (z_α/2 + z_β)² / d² (tek örneklem, eşleştirilmiş)

Hesaplayıcı bu kapalı formdan başlayarak elde edilen df'deki gerçek t kritik değeri ile iyileştirme yapar. Hedef gücün gerçekten karşılandığından emin olmak için son n gerekirse bir birim artırılır.

Veri Toplamadan Önce Neden Çalıştırmalı?

Güç analizi, araştırmadaki en ucuz sigortadır. Katılımcı toplamadan önce yapılan 15 dakikalık bir hesap, planladığınız örneklemin önem verdiğiniz etkiyi bulma şansının gerçek olup olmadığını söyler. Bu adımı atlayın, çalışmayı yine de yürütürsünüz, veriyi analiz edersiniz, p > 0.05 görürsünüz ve etkinin küçük mü olduğu yoksa sadece bu örneklem büyüklüğünde görünmez mi olduğunu bilemezsiniz — birinci günde bir hesabın işaret edeceği bir zaman kaybı.

İstediği örneklem büyüklüğü rahatsız edici olabilir. İki örneklem t-testinde d = 0.2 etkisini %80 güçle tespit etmek grup başına 394 katılımcı — toplam 788 — ister. Bu bütçenizin dışındaysa analiz hâlâ değerlidir: gerçek seçenekleriniz daha hassas bir sonuç ölçmek, daha verimli bir tasarım uygulamak (grup içi tasarım gruplar arası tasarıma göre güç açısından üstündür) veya literatürün etki büyüklüklerinin sizin spesifik kurulumunuza uymadığını kabul etmektir.

Post-Hoc Güç Tuzağı

Çalışma bittikten sonra gözlenen etki büyüklüğü üzerinden güç analizi yapmak size esasen yeni bir bilgi vermez. Hoenig ve Heisey'in The Abuse of Power makalesi (The American Statistician 55(1):19-24, DOI 10.1198/000313001300339897) retrospektif gücün p-değerinin deterministik bir fonksiyonu olduğunu göstermiştir. p = 0.04 ise gözlenen güç yaklaşık 0.55 civarındadır; p = 0.15 ise 0.30'a iner. Aynı bilgi, farklı biçimde yeniden paketlenir — ve bu metriği talep eden hakemler "gücümüz düşüktü" ile "etki gerçekten küçük" arasını ayırt edemeyen bir istatistik istiyor demektir.

Anlamlı olmayan bir sonuçtan sonra sorulması gereken soru farklıdır: gerçekten topladığınız örneklem büyüklüğüyle çalışma hangi etkiyi tespit edebilirdi? Gerçek n'inizi yukarıdaki "Tespit edilebilir etki" moduna girin. Yanıt, çalışmanın yakalayabileceği etkiler için somut bir alt sınır belirler — herhangi bir post-hoc güç değerinden çok daha dürüst bir rapor.

Sık Karşılaşılan Hatalar

Gözlenen etki büyüklüğünü takip çalışmasını planlamak için kullanmak: Küçük çalışmalardan gelen gözlenen etki büyüklükleri gürültülüdür ve yayın seçimi altında yukarı yönde yanlılık taşır. Ya tahmin edilen etkinin güven aralığını genişletip geri takın ya da teoriye dayalı daha küçük bir d seçin.
Cohen'in 0.5'ini "orta efor" olarak ele almak: d = 0.5 Cohen'in konvansiyon tablosunda ortadır. Bu, sizin alanınızda makul bir etki büyüklüğü olup olmadığı hakkında hiçbir şey söylemez. Yayımlanmış meta-analizler neredeyse her zaman daha iyi bir çıpadır.
Eşit varyans ve eşit n varsaymak: Bu hesaplayıcı her ikisini de varsayar. Gruplarınızın n'i veya varyansı eşit değilse Welch tarzı düzeltmeler biraz farklı örneklem hedefleri verir — genellikle birkaç katılımcı farkıyla ama bilinmeye değer.
Testten sonra güç hesaplamak: Yukarıdaki post-hoc bölümüne bakın. Bunun yerine "Tespit edilebilir etki" modunu kullanın; bu mod gerçekten bir yanıtı olan soruyu yanıtlar.
Ölçüm güvenirliğini görmezden gelmek: Güvenilir olmayan ölçümlerden gelen zayıflama gerçekten ihtiyaç duyduğunuz örneklem büyüklüğünü şişirir. Enstrümanınızın güvenirliği 0.7 ise, gerçek yapıdaki d = 0.5 gözlenen ölçekte d = 0.35'e benzer ve gereken n buna göre artar.

Sıkça Sorulan Sorular

İstatistiksel güç ne anlama gelir?

Güç, ortada gerçek bir etki olduğunda çalışmanızın bu etkiyi tespit etme olasılığıdır. Hedefi 0.80 olarak ayarladığınızda, varsaydığınız büyüklükte gerçek bir etki için %80 olasılıkla anlamlı sonuç istediğinizi ifade edersiniz. Kalan %20, Tip II hatasıdır — gerçekten var olan bir etkiyi tespit edememek.

Neden 0.80 sık kullanılan güç hedefi?

Cohen 0.80'i, yanlış negatifleri veri toplama maliyetine karşı makul biçimde dengeleyen bir alt sınır olarak önermişti — bu sayının evrenle ilgili özel bir tarafı yoktur. Çeşitli alanlardaki dergiler bu değeri hakem beklentilerine dahil etti. Etkinin kaçırılması maliyetliyse 0.90 veya 0.95'i hedeflemek doğrudur — ilaç denemeleri ve tanı çalışmaları bunu sıkça yapar.

Hangi etki büyüklüğünü girmeliyim?

Alanınızdaki benzer çalışmalar için son meta-analizlerin raporladığı değeri. Tam sonucunuzun 2022 tarihli bir incelemesi genellikle Cohen'in 1988 referansından iyidir. Yararlı bir kaynak yoksa, d = 0.2 / 0.5 / 0.8 sırasıyla küçük / orta / büyük için son çare referans değerlerdir — Cohen'in kendisi bunları son çare olarak tanımlamıştı.

Bu hesaplayıcı G*Power ile eşleşir mi?

T-testleri için evet — standart α ve güç kombinasyonlarında ±1 katılımcı farkıyla eşleşir. Algoritma, n > 10 için tam versiyondan yaklaşık %0.2 uzaklıkta olan merkez dışı t CDF'e bir merkezi-t kaydırma yaklaşımı kullanır. Bazen tek kişilik fark, farklı yaklaşımlardan kaynaklanır, metodolojik bir anlaşmazlıktan değil.

ANOVA, korelasyon veya ki-kare için kullanabilir miyim?

Henüz hayır — bu sayfa sadece t-testi ailesini kapsar (tek örneklem, iki örneklem bağımsız, eşleştirilmiş). F-testleri ve kategorik yöntemler için merkez dışılık parametreleri farklıdır — ANOVA için Cohen'in f'i, ki-kare için w, oranlar için q — ve kendi hesaplayıcılarını hak eder; yol haritasındalar.

Post-hoc güç analizi çalıştırmaya değer mi?

Hayır. Gözlenen etki büyüklüğü ile sonradan yapılan güç hesabı p-değerinin deterministik bir fonksiyonudur ve yeni bir şey eklemez. Hoenig ve Heisey bunu 2001'de The American Statistician'da netleştirdiler. Anlamlı olmayan sonuçtan sonra yardımcı olan soru farklıdır: topladığınız örneklemle hangi etkiyi tespit edebilirdiniz? Bunun için yukarıdaki "Tespit edilebilir etki" modunu kullanın.

Güç Analizi Hesaplayıcı

Sonuçlar

Güç Analizi Nedir?

Etki Büyüklüğü: Konvansiyonlar ve Sınırları

Matematik Nasıl Çalışır?

Merkez dışılık parametresi δ

Serbestlik derecesi

Normal yaklaşım (başlangıç)

Veri Toplamadan Önce Neden Çalıştırmalı?

Post-Hoc Güç Tuzağı

Sık Karşılaşılan Hatalar

Sıkça Sorulan Sorular

İlgili Hesaplayıcılar

Örneklem Büyüklüğü Hesaplayıcı

T Testi Hesaplayıcı

Güven Aralığı Hesaplayıcı

P Değeri Hesaplayıcı