Як обчислити біноміальні ймовірності
Біноміальний розподіл відповідає на одне з найпоширеніших питань теорії ймовірностей: якщо повторити один і той самий експеримент n разів, яка ймовірність отримати рівно k успіхів? Формула виглядає складніше, ніж є насправді, якщо розібрати її по частинах.
Почнемо з біноміального коефіцієнта C(n, k) = n! / (k! × (n−k)!). Він показує, скільки різних комбінацій k успіхів можна розмістити серед n випробувань — порядок не має значення, лише загальна кількість. Для 10 підкидань монети з 7 орлами існує C(10, 7) = 120 різних послідовностей, що дають рівно 7 орлів.
Далі помножимо на ймовірність того, що одна конкретна послідовність відбудеться: pk × (1−p)n−k. Кожен успіх додає множник p, кожна невдача — множник (1−p), а припущення про незалежність дозволяє просто перемножити їх усі.
Повна формула PMF: P(X = k) = C(n, k) × pk × (1−p)n−k. Для нашого прикладу з монетою при n=10, k=7, p=0.5: C(10,7) × 0.57 × 0.53 = 120 × 0.0078125 × 0.125 = 0.1172, тобто приблизно 11.7% шансів.
Розуміння кумулятивної ймовірності
У реальних задачах рідко цікавить ймовірність одного конкретного числа. Частіше потрібно знати: яка ймовірність отримати 7 або менше успіхів? Це і є кумулятивна функція розподілу — сума P(X=0) + P(X=1) + ... + P(X=k). Калькулятор обчислює її, додаючи кожне окреме значення PMF від нуля до k.
Доповнення так само корисне. P(X > k) = 1 − P(X ≤ k) дає ймовірність перевищити k успіхів. Інженери з контролю якості постійно це використовують: якщо в партії 200 компонентів рівень браку 2%, яка ймовірність, що більше 8 виявляться дефектними? Ця відповідь визначає, прийняти чи відхилити всю партію.
Коли використовувати біноміальний розподіл
Щоб біноміальна модель працювала, мають виконуватися чотири умови. По-перше, кількість випробувань n відома заздалегідь. По-друге, кожне випробування має рівно два результати — зазвичай їх називають «успіх» і «невдача». По-третє, ймовірність успіху p залишається сталою для всіх випробувань. По-четверте, випробування незалежні, тобто результат одного не впливає на наступне.
Підкидання монети і кидки кубика — очевидні приклади, але біноміальний розподіл зустрічається значно частіше, ніж здається з підручників. Клінічні дослідження відстежують, скільки пацієнтів відповіли на лікування з n зареєстрованих. A/B-тести на сайтах вимірюють, скільки відвідувачів з n натиснули кнопку. Виробничі лінії рахують дефектні деталі в партії. Дослідники опитувань підраховують, скільки респондентів з n відповіли «так».
Модель перестає працювати, коли випробування не незалежні (витягування карт без повернення), коли ймовірність змінюється між випробуваннями (баскетболіст, який «розігрівся»), або коли результатів більше двох. У першому випадку підходить гіпергеометричний розподіл. Для змінних ймовірностей може знадобитися симуляція або гнучкіша модель.
Довідка: Типові біноміальні ймовірності
| Сценарій | n | k | p | P(X = k) | P(X ≤ k) |
|---|---|---|---|---|---|
| Чесна монета, 10 підкидань, 5 орлів | 10 | 5 | 0.50 | 0.2461 | 0.6230 |
| Чесна монета, 10 підкидань, 7 орлів | 10 | 7 | 0.50 | 0.1172 | 0.9453 |
| Кубик, 12 кидків, 2 шістки | 12 | 2 | 0.167 | 0.2960 | 0.6887 |
| 5% браку, 50 деталей, 0 дефектних | 50 | 0 | 0.05 | 0.0769 | 0.0769 |
| 80% складають, 20 студентів, 18 склали | 20 | 18 | 0.80 | 0.1369 | 0.9308 |
Часті запитання
Що таке біноміальний розподіл?
Він моделює кількість успіхів у фіксованій серії незалежних випробувань з однаковою ймовірністю успіху. Підкидання монети — класичний приклад: підкиньте чесну монету 10 разів, і біноміальний розподіл покаже ймовірність отримати будь-яку конкретну кількість орлів.
Чотири вимоги: фіксована кількість випробувань, два можливих результати на кожне випробування, стала ймовірність для всіх випробувань і незалежність між ними. Якщо хоча б одна умова порушена — потрібен інший розподіл.
Чим відрізняється PMF від CDF?
PMF дає P(X = k) — ймовірність рівно k успіхів. CDF дає P(X ≤ k) — ймовірність k або менше успіхів. Перша — одна точка, друга — наростаючий підсумок до цієї точки.
Більшість практичних задач вимагають CDF або її доповнення. «Не більше 3 бракованих деталей» — це P(X ≤ 3). «Більше 3 бракованих» — це 1 − P(X ≤ 3). Задачі на точну кількість на кшталт «рівно 3 браковані» зустрічаються рідше, але PMF вирішує їх безпосередньо.
Коли варто використовувати біноміальний розподіл?
Щоразу, коли є фіксована кількість випробувань типу «так/ні» зі сталою ймовірністю і незалежністю. Перевірка якості на виробництві, клінічні випробування ліків, опитування з відповідями «так/ні», A/B-тести конверсії та відсоток влучних штрафних кидків — все це природно вписується в біноміальну модель.
Якщо вибірка відбувається без повернення (як карти з колоди) — переходьте на гіпергеометричний розподіл. Якщо рахуєте події за проміжок часу, а не серед фіксованої кількості випробувань — краще підійде розподіл Пуассона.
Що відбувається, коли n дуже велике?
Біноміальний розподіл починає нагадувати дзвоноподібну криву. Коли np і n(1−p) обидва перевищують приблизно 10, біноміальні ймовірності можна наближувати нормальним розподілом із середнім μ = np і стандартним відхиленням σ = √(np(1−p)). До появи комп'ютерів це наближення було необхідністю, бо обчислювати точні біноміальні ймовірності для великих n вручну — справжнє катування.
Із сучасними калькуляторами — включно з цим — наближення не потрібне. Цей інструмент працює з n до 1000, використовуючи логарифмічну арифметику, яка уникає переповнення при обчисленні факторіалів.
Як обчислити P(X > k)?
Візьміть доповнення: P(X > k) = 1 − P(X ≤ k). Калькулятор відображає ймовірність верхнього хвоста прямо під результатами PMF і CDF — додаткових кроків не потрібно.
Для діапазону на кшталт P(a ≤ X ≤ b) обчисліть P(X ≤ b) − P(X ≤ a−1). Запустіть калькулятор двічі з різними значеннями k і відніміть.