Bayes formulasi qo'llanilganda. Bayes teoremasining oddiy izohi

Bayes formulasi qo'llanilganda.  Bayes teoremasining oddiy izohi
Bayes formulasi qo'llanilganda. Bayes teoremasining oddiy izohi

Formulani chiqarishda to'liq ehtimollik voqea deb taxmin qilingan edi A, ehtimolligi aniqlanishi kerak bo'lgan, hodisalardan birida sodir bo'lishi mumkin N 1 , N 2 , ... , N n, juftlik mos kelmaydigan hodisalarning to'liq guruhini tashkil qiladi. Bundan tashqari, bu hodisalarning (gipotezalarning) ehtimoli oldindan ma'lum edi. Tajriba o'tkazildi deb faraz qilaylik, natijada voqea sodir bo'ldi A yetib keldi. Bu Qo'shimcha ma'lumot gipotezalarning ehtimolini qayta baholash imkonini beradi N i, hisoblab chiqqan holda P (H i / A).

yoki umumiy ehtimollik formulasidan foydalanib, biz olamiz

Bu formula Bayes formulasi yoki gipoteza teoremasi deb ataladi. Bayes formulasi hodisaga olib kelgan tajriba natijasi ma'lum bo'lgandan keyin gipotezalarning ehtimolini "qayta ko'rib chiqish" imkonini beradi. A.

Ehtimollar R(N i)− bular gipotezalarning apriori ehtimolliklari (ular tajribadan oldin hisoblab chiqilgan). Ehtimollar P(H i /A)− bular gipotezalarning posterior ehtimolliklari (ular tajribadan keyin hisoblab chiqiladi). Bayes formulasi oldingi ehtimolliklardan va hodisaning shartli ehtimollaridan keyingi ehtimolliklarni hisoblash imkonini beradi. A.

Misol. Ma'lumki, barcha erkaklarning 5% va barcha ayollarning 0,25% ranglarni ko'r qiladi. Tibbiy karta raqami asosida tasodifiy tanlangan kishi rang ko'rligidan aziyat chekadi. Uning erkak bo'lish ehtimoli qanday?

Yechim. Tadbir A- odam rang ko'rligidan aziyat chekadi. Eksperiment uchun elementar hodisalar maydoni - odam tibbiy karta raqami bo'yicha tanlanadi - Ō = ( N 1 , N 2 ) 2 ta hodisadan iborat:

N 1 - erkak tanlangan,

N 2 - ayol tanlanadi.

Bu hodisalar faraz sifatida tanlanishi mumkin.

Muammoning shartlariga ko'ra (tasodifiy tanlov) bu hodisalarning ehtimollari bir xil va tengdir P (N 1 ) = 0.5; P (N 2 ) = 0.5.

Xuddi o'sha payt shartli ehtimollar Rang ko'rligidan aziyat chekadigan odam mos ravishda tengdir:

R(A/N 1 ) = 0.05 = 1/20; R(A/N 2 ) = 0.0025 = 1/400.

Tanlangan odamning rangi ko'r ekanligi, ya'ni voqea sodir bo'lganligi ma'lum bo'lganligi sababli, birinchi gipotezani qayta baholash uchun Bayes formulasidan foydalanamiz:

Misol. Uchta bir xil ko'rinishdagi qutilar mavjud. Birinchi qutida 20 ta oq shar, ikkinchi qutida 10 ta oq va 10 qora shar, uchinchi qutida 20 ta qora shar bor. Oq to'p tasodifiy tanlangan qutidan olinadi. To'pning birinchi qutidan tortib olinishi ehtimolini hisoblang.

Yechim. bilan belgilaymiz A hodisa - ko'rinish oq to'p. Qutini tanlash bo'yicha uchta taxmin (gipoteza) bo'lishi mumkin: N 1 ,N 2 , N 3 - mos ravishda birinchi, ikkinchi va uchinchi qutini tanlash.

Har qanday qutini tanlash bir xil darajada mumkin bo'lganligi sababli, gipotezalarning ehtimollari bir xil:

P (N 1 )=P(N 2 )=P(N 3 )= 1/3.

Muammoga ko'ra, birinchi qutidan oq sharni chizish ehtimoli

Ikkinchi qutidan oq to'pni chizish ehtimoli



Uchinchi qutidan oq to'pni chizish ehtimoli

Bayes formulasi yordamida kerakli ehtimollikni topamiz:

Sinovlarni takrorlash. Bernulli formulasi.

N ta sinov o'tkaziladi, ularning har birida A hodisasi sodir bo'lishi mumkin yoki bo'lmasligi mumkin va har bir alohida sinovda A hodisasining ehtimoli doimiy, ya'ni. tajribadan tajribaga o'zgarmaydi. Biz bir tajribada A hodisaning ehtimolini qanday topishni allaqachon bilamiz.

n ta tajribada A hodisasining ma'lum bir necha marta (m marta) sodir bo'lish ehtimoli alohida qiziqish uyg'otadi. Agar testlar mustaqil bo'lsa, bunday muammolarni osongina hal qilish mumkin.

Def. Bir nechta testlar chaqiriladi A hodisasiga nisbatan mustaqil , agar ularning har birida A hodisasining ehtimoli boshqa tajribalar natijalariga bog'liq bo'lmasa.

A hodisasining ro'y berish ehtimoli R n (m) aniq m marta (ro'y bermaslik n-m marta, hodisa ) bu n sinovlarda. A hodisasi m marta juda xilma-xil ketma-ketlikda namoyon bo'ladi).

- Bernulli formulasi.

Quyidagi formulalar aniq:

R n (m Ozroq n ta sinovda k marta.

P n (m>k) = P n (k+1) + P n (k+2) +…+ P n (n) - A hodisasining yuzaga kelish ehtimoli. Ko'proq n ta sinovda k marta.

Voqealar shakli to'liq guruh, agar ulardan kamida bittasi, albatta, tajriba natijasida yuzaga keladigan bo'lsa va juftlik mos kelmaydigan bo'lsa.

Faraz qilaylik, voqea A to'liq guruhni tashkil etuvchi bir nechta juft mos kelmaydigan hodisalardan biri bilan birga sodir bo'lishi mumkin. Biz voqealarni chaqiramiz ( i= 1, 2,…, n) farazlar qo'shimcha tajriba (apriori). A hodisaning yuzaga kelish ehtimoli formula bilan aniqlanadi to'liq ehtimollik :

16-misol. Uchta urna bor. Birinchi urnada 5 ta oq va 3 ta qora shar, ikkinchisida 4 ta oq va 4 ta qora shar, uchinchisida 8 ta oq shar bor. Idishlardan biri tasodifiy tanlanadi (bu, masalan, tanlov 1, 2 va 3 raqamli uchta sharni o'z ichiga olgan yordamchi urnadan qilinganligini anglatishi mumkin). Ushbu urnadan tasodifiy ravishda to'p olinadi. Uning qora bo'lishi ehtimoli qanday?

Yechim. Tadbir A– qora shar olib tashlanadi. Agar to'p qaysi urnadan olinganligi ma'lum bo'lsa, unda ehtimollikning klassik ta'rifi yordamida kerakli ehtimollikni hisoblash mumkin edi. Keling, to'pni olish uchun qaysi urna tanlanganligi haqidagi taxminlarni (gipotezalarni) kiritaylik.

To'pni birinchi urnadan (taxmin) yoki ikkinchidan (taxmin) yoki uchinchidan (taxmin) olish mumkin. Urunlardan birini tanlashda teng imkoniyatlar mavjud bo'lgani uchun .

Bundan kelib chiqadi

17-misol. Elektr lampalar uchta zavodda ishlab chiqariladi. Birinchi zavod 30% ishlab chiqaradi umumiy soni elektr lampalar, ikkinchi - 25%,
uchinchisi - qolganlari. Birinchi zavodning mahsulotlarida nuqsonli elektr lampalarning 1%, ikkinchisida - 1,5%, uchinchisida - 2% mavjud. Do'kon har uch zavoddan ham mahsulotlarni qabul qiladi. Do'konda sotib olingan chiroqning nuqsonli bo'lish ehtimoli qanday?

Yechim. Lampochka qaysi zavodda ishlab chiqarilganligi haqida taxminlar qilish kerak. Buni bilib, biz uning nuqsonli bo'lish ehtimolini topishimiz mumkin. Keling, hodisalar uchun notalarni kiritaylik: A– sotib olingan elektr chiroq nuqsonli bo‘lib chiqdi, – chiroq birinchi zavod tomonidan ishlab chiqarilgan, – chiroq ikkinchi zavod tomonidan ishlab chiqarilgan;
– chiroq uchinchi zavod tomonidan ishlab chiqarilgan.

Umumiy ehtimollik formulasidan foydalanib, kerakli ehtimollikni topamiz:

Bayes formulasi. ruxsat bering - to'liq guruh juftlik mos kelmaydigan hodisalar (gipotezalar). A- tasodifiy hodisa. Keyin,

A hodisaga olib kelgan sinov natijasi ma'lum bo'lgandan keyin gipotezalarning ehtimolligini qayta baholashga imkon beradigan oxirgi formula deyiladi. Bayes formulasi .

18-misol. Kasallik bilan og'rigan bemorlarning o'rtacha 50% ixtisoslashtirilgan shifoxonaga yotqiziladi TO, 30% - kasallik bilan L, 20 % –
kasallik bilan M. Kasallikning to'liq davolanishi ehtimoli K kasalliklar uchun 0,7 ga teng L Va M bu ehtimollar mos ravishda 0,8 va 0,9 ga teng. Kasalxonaga yotqizilgan bemor sog‘lom bo‘lib chiqdi. Ushbu bemorning kasallikdan aziyat chekish ehtimolini toping K.


Yechim. Keling, farazlarni keltiramiz: - bemor kasallikdan aziyat chekdi TO L, – bemor kasallikdan aziyat chekdi M.

Keyin, muammoning shartlariga ko'ra, bizda . Keling, bir voqeani tanishtiramiz A– kasalxonaga yotqizilgan bemor sog‘lom chiqib ketdi. Shart bo'yicha

Umumiy ehtimollik formulasidan foydalanib, biz quyidagilarni olamiz:

Bayes formulasiga ko'ra.

19-misol. Idishda beshta to'p bo'lsin va oq to'plar soni haqidagi barcha taxminlar bir xil bo'lishi mumkin. To'p urnadan tasodifiy olinadi va u oq bo'lib chiqadi. Idishning dastlabki tarkibi haqida qanday taxmin ko'proq mumkin?

Yechim. Idishda oq sharlar borligi haqidagi gipoteza bo'lsin , ya'ni oltita taxmin qilish mumkin. Keyin, muammoning shartlariga ko'ra, bizda .

Keling, bir voqeani tanishtiramiz A- tasodifiy olingan oq to'p. Keling, hisoblaylik. dan beri Bayes formulasiga ko'ra bizda:

Shunday qilib, eng ehtimolli gipoteza, chunki.

20-misol. Hisoblash qurilmasining mustaqil ishlaydigan uchta elementidan ikkitasi ishlamay qoldi. Agar birinchi, ikkinchi va uchinchi elementlarning ishdan chiqish ehtimoli mos ravishda 0,2 bo'lsa, birinchi va ikkinchi elementlarning ishdan chiqish ehtimolini toping; 0,4 va 0,3.

Yechim. bilan belgilaymiz A voqea - ikkita element muvaffaqiyatsiz tugadi. Quyidagi farazlarni keltirish mumkin:

- birinchi va ikkinchi elementlar muvaffaqiyatsiz tugadi, lekin uchinchi element ishlaydi. Elementlar mustaqil ishlaganligi sababli, ko'paytirish teoremasi qo'llaniladi:

Bayes kim? va uning boshqaruvga qanday aloqasi bor? - butunlay adolatli savol tug'ilishi mumkin. Hozircha mening so'zimni qabul qiling: bu juda muhim!.. va qiziqarli (hech bo'lmaganda men uchun).

Aksariyat menejerlar qanday paradigma bilan ishlaydi: agar men biror narsani kuzatsam, undan qanday xulosalar chiqarishim mumkin? Bayes nimani o'rgatadi: buni kuzatishim uchun aslida nima bo'lishi kerak? Hamma fanlar aynan shunday rivojlanadi va u bu haqda yozadi (xotiradan iqtibos keltiraman): kallasida nazariya bo‘lmagan odam ta’sir ostida bir g‘oyadan boshqa fikrga o‘tadi. turli tadbirlar(kuzatishlar). Ular bejiz aytishmaydi: yaxshi nazariyadan ko'ra amaliyroq narsa yo'q.

Amaliyotdan misol. Mening qo'l ostidagi xodimim xatoga yo'l qo'ydi va mening hamkasbim (boshqa bo'lim boshlig'i) beparvolik qilgan xodimga boshqaruv ta'sirini o'tkazish kerakligini aytadi (boshqacha qilib aytganda, jazolash / ta'na qilish). Va men bilamanki, bu xodim oyiga 4-5 mingta bir xil turdagi operatsiyalarni bajaradi va bu vaqt ichida 10 dan ortiq xatoga yo'l qo'ymaydi. Paradigmadagi farqni his qilyapsizmi? Mening hamkasbim kuzatuvga munosabat bildiradi va men aprior bilimga egamanki, xodim ma'lum miqdordagi xatolarga yo'l qo'yadi, shuning uchun yana bittasi bu bilimga ta'sir qilmadi ... Endi, agar oy oxirida ular borligi aniqlansa, masalan, 15 ta shunday xato!.. Bu allaqachon standartlarga rioya qilmaslik sabablarini o'rganishga asos bo'ladi.

Bayes yondashuvining muhimligiga ishonchingiz komilmi? Qiziqmi? Umid qilamanki, ha. Va endi malhamda chivin. Afsuski, Bayes g'oyalari kamdan-kam hollarda darhol beriladi. Ochig'ini aytsam, men bu g'oyalar bilan mashhur adabiyotlar orqali tanishganimdan beri omadim yo'q edi, o'qiganimdan keyin ko'plab savollar qoldi. Eslatma yozishni rejalashtirayotganda, men Bayes haqida oldindan yozib olgan narsalarimni to'pladim, shuningdek, Internetda yozilgan narsalarni o'rgandim. Men sizning e'tiboringizga mavzu bo'yicha eng yaxshi taxminimni taqdim etaman. Bayes ehtimolligiga kirish.

Bayes teoremasining kelib chiqishi

Quyidagi tajribani ko'rib chiqing: biz segmentda yotgan har qanday raqamni chaqiramiz va bu raqam, masalan, 0,1 va 0,4 oralig'ida bo'lganda qayd qilamiz (1a-rasm). Ushbu hodisaning ehtimoli segmentdagi raqamlarning ko'rinishi sharti bilan segment uzunligining segmentning umumiy uzunligiga nisbatiga tengdir. teng darajada ehtimol. Buni matematik tarzda yozish mumkin p(0,1 <= x <= 0,4) = 0,3, или кратко r(X) = 0,3, bu erda r- ehtimollik, X- diapazondagi tasodifiy o'zgaruvchi, X- diapazondagi tasodifiy o'zgaruvchi. Ya'ni, segmentni urish ehtimoli 30% ni tashkil qiladi.

Guruch. 1. Ehtimollarning grafik talqini

Endi x kvadratini ko'rib chiqing (1b-rasm). Aytaylik, biz juft raqamlarni nomlashimiz kerak ( x, y), ularning har biri noldan katta va bittadan kichik. Buning ehtimoli x(birinchi raqam) segment ichida bo'ladi (ko'k maydon 1), ko'k maydon maydonining butun kvadrat maydoniga nisbati, ya'ni (0,4 - 0,1) * (1 - 0) ) / (1 * 1) = 0, 3, ya'ni bir xil 30%. Buning ehtimoli y segment ichida joylashgan (yashil maydon 2) yashil maydon maydonining butun kvadrat maydoniga nisbatiga teng. p(0,5 <= y <= 0,7) = 0,2, или кратко r(Y) = 0,2.

Bir vaqtning o'zida qadriyatlar haqida nimani o'rganishingiz mumkin? x Va y. Masalan, bir vaqtning o'zida qanday ehtimollik bor x Va y tegishli berilgan segmentlarda bormi? Buning uchun siz 3-maydonning (yashil va ko'k chiziqlar kesishmasi) butun kvadrat maydoniga nisbatini hisoblashingiz kerak: p(X, Y) = (0,4 – 0,1) * (0,7 – 0,5) / (1 * 1) = 0,06.

Keling, bu qanday ehtimollik ekanligini bilmoqchimiz deylik y agar intervalda bo'ladi x allaqachon oralig'ida. Ya'ni, aslida bizda filtr bor va biz juftlarni chaqirganimizda ( x, y), keyin topish shartiga javob bermaydigan juftlarni darhol yo'q qilamiz x ma'lum oraliqda, so'ngra filtrlangan juftliklardan biz qaysilari uchun hisoblaymiz y shartimizni qanoatlantiradi va ehtimollikni qaysi juftliklar soniga nisbati sifatida qaraydi y filtrlangan juftlarning umumiy soniga yuqoridagi segmentda yotadi (ya'ni, buning uchun x segmentida joylashgan). Bu ehtimolni quyidagicha yozishimiz mumkin p(Y|X da X diapazonga teging." Shubhasiz, bu ehtimollik 3-maydonning koʻk 1-maydon maydoniga nisbatiga teng. 3-maydonning maydoni (0,4 – 0,1) * (0,7 – 0,5) = 0,06 va ko'k maydonning maydoni 1 ( 0,4 - 0,1) * (1 - 0) = 0,3, keyin ularning nisbati 0,06 / 0,3 = 0,2. Boshqacha aytganda, topish ehtimoli y segmentida shuni nazarda tutgan x segmentiga tegishli p(Y|X) = 0,2.

Oldingi paragrafda biz aslida shaxsni shakllantirdik: p(Y|X) = p(X, Y) / p( X). Unda shunday deyilgan: “urilish ehtimoli da oralig'ida, bu sharti bilan X diapazonni urish, bir vaqtning o'zida urish ehtimoli nisbatiga teng X diapazonga va da diapazonga, urish ehtimoliga X diapazonga kiradi."

Analogiya bo'yicha, ehtimollikni ko'rib chiqing p(X|Y). Biz juftlarni chaqiramiz ( x, y) va qaysilarini filtrlang y 0,5 dan 0,7 gacha bo'lsa, ehtimollik x sharti bilan intervalda bo'ladi y segmentga tegishli 3-mintaqa maydonining 2-yashil hudud maydoniga nisbatiga teng: p(X|Y) = p(X, Y) / p(Y).

E'tibor bering, ehtimolliklar p(X, Y) Va p(Y, X) teng va ikkalasi ham 3-zona maydonining butun kvadrat maydoniga nisbatiga teng, ammo ehtimolliklar p(Y|X) Va p(X|Y) teng emas; ehtimollik esa p(Y|X) 3-mintaqaning 1-mintaqasiga nisbatiga teng va p(X|Y) – 3-hududdan 2-mintaqaga. Shuni ham unutmang p(X, Y) ko'pincha sifatida belgilanadi p(X&Y).

Shunday qilib, biz ikkita ta'rifni kiritdik: p(Y|X) = p(X, Y) / p( X) Va p(X|Y) = p(X, Y) / p(Y)

Keling, ushbu tengliklarni quyidagi shaklda qayta yozamiz: p(X, Y) = p(Y|X) * p( X) Va p(X, Y) = p(X|Y) * p(Y)

Chap tomonlar teng bo'lgani uchun o'ng tomonlar teng: p(Y|X) * p( X) = p(X|Y) * p(Y)

Yoki oxirgi tenglikni quyidagicha qayta yozishimiz mumkin:

Bu Bayes teoremasi!

Bunday oddiy (deyarli tavtologik) transformatsiyalar haqiqatan ham ajoyib teoremani keltirib chiqaradimi!? Xulosa chiqarishga shoshilmang. Keling, nima borligi haqida yana gaplashaylik. Ma'lum bir boshlang'ich (apriori) ehtimollik mavjud edi r(X), bu tasodifiy o'zgaruvchi X segmentda bir tekis taqsimlangan diapazonga to'g'ri keladi X. Hodisa yuz berdi Y, buning natijasida biz bir xil tasodifiy o'zgaruvchining posterior ehtimolini oldik X: r(X|Y) va bu ehtimollik dan farq qiladi r(X) koeffitsienti bo'yicha. Tadbir Y dalil deb ataladi, ko'proq yoki kamroq tasdiqlaydi yoki rad etadi X. Bu koeffitsient ba'zan deyiladi dalil kuchi. Dalillar qanchalik kuchli bo'lsa, Y ni kuzatish fakti oldingi ehtimollikni qanchalik o'zgartirsa, keyingi ehtimollik oldingidan shunchalik farq qiladi. Agar dalillar zaif bo'lsa, keyingi ehtimollik oldingisiga deyarli teng.

Diskret tasodifiy miqdorlar uchun Bayes formulasi

Oldingi bo'limda biz intervalda aniqlangan x va y uzluksiz tasodifiy o'zgaruvchilar uchun Bayes formulasini oldik. Keling, har biri ikkita mumkin bo'lgan qiymatni oladigan diskret tasodifiy o'zgaruvchilarga misolni ko'rib chiqaylik. Muntazam tibbiy ko'riklar davomida qirq yoshida ayollarning 1 foizi ko'krak bezi saratonidan aziyat chekishi aniqlandi. Saraton kasalligiga chalingan ayollarning 80% ijobiy mamogramma natijalarini oladi. Sog'lom ayollarning 9,6 foizi ham ijobiy mamogramma natijalarini olishadi. Tekshiruv davomida ushbu yosh guruhidagi ayol ijobiy mammografiya natijasini oldi. Uning aslida ko'krak bezi saratoni bilan kasallanish ehtimoli qanday?

Fikrlash/hisoblash liniyasi quyidagicha. Saraton bilan og'rigan bemorlarning 1% dan mamografi 80% ijobiy natija beradi = 1% * 80% = 0,8%. Sog'lom ayollarning 99 foizidan mammografiya 9,6% ijobiy natija beradi = 99% * 9,6% = 9,504%. Jami 10,304% (9,504% + 0,8%) ijobiy mammografiya natijalari bilan faqat 0,8% kasal, qolgan 9,504% esa sog'lom. Shunday qilib, ijobiy mammografiya natijasi bo'lgan ayolning saraton kasalligiga chalinish ehtimoli 0,8% / 10,304% = 7,764%. 80% yoki shunday deb o'yladingizmi?

Bizning misolimizda Bayes formulasi quyidagi shaklni oladi:

Keling, ushbu formulaning "jismoniy" ma'nosi haqida yana bir bor gapiraylik. X- tasodifiy o'zgaruvchi (tashxis), qiymatlarni olish: X 1- kasal va X 2- sog'lom; Y- tasodifiy o'zgaruvchi (o'lchov natijasi - mammografiya), qiymatlarni olish: Y 1- ijobiy natija va Y2- salbiy natija; p(X 1)– mammografiya oldidan kasallik ehtimoli (apriori ehtimollik) 1% ga teng; p(Y 1 |X 1 ) - agar bemor kasal bo'lsa, ijobiy natija ehtimoli (shartli ehtimollik, chunki u topshiriq shartlarida ko'rsatilishi kerak), 80% ga teng; p(Y 1 |X 2 ) – bemor sog'lom bo'lsa, ijobiy natija ehtimoli (shuningdek, shartli ehtimollik) 9,6%; p(X 2)– bemorning mammografiyadan oldin sog‘lom bo‘lish ehtimoli (apriori ehtimollik) 99%; p (X 1|Y 1 ) – ijobiy mammografiya natijasi berilgan bemorning kasal bo'lish ehtimoli (posterior ehtimollik).

Ko'rinib turibdiki, posterior ehtimollik (biz qidirayotgan narsa) biroz murakkab koeffitsient bilan oldingi ehtimolga (boshlang'ich) proportsionaldir. . Yana bir bor ta'kidlayman. Menimcha, bu Bayes yondashuvining asosiy jihati. O'lchov ( Y) dastlab mavjud bo'lgan narsalarga ma'lum miqdordagi ma'lumotni qo'shdi (apriori), bu bizning ob'ekt haqidagi bilimimizni aniqlab berdi.

Misollar

O'rgangan materialingizni birlashtirish uchun bir nechta muammolarni hal qilishga harakat qiling.

1-misol. 3 ta urna bor; birinchisida 3 ta oq shar va 1 ta qora; ikkinchisida - 2 ta oq shar va 3 ta qora; uchinchisida 3 ta oq shar bor. Kimdir tasodifiy urnalardan biriga yaqinlashadi va undan 1 ta to'pni chiqaradi. Bu to'p oq bo'lib chiqdi. Koptokning 1, 2, 3-urnadan olinganligining orqa ehtimolliklarini toping.

Yechim. Bizda uchta faraz bor: H 1 = (birinchi urn tanlangan), H 2 = (ikkinchi urn tanlangan), H 3 = (uchinchi urn tanlangan). Urn tasodifiy tanlanganligi sababli, gipotezalarning a priori ehtimoli teng: P (H 1) = P (H 2) = P (H 3) = 1/3.

Tajriba natijasida A = hodisasi paydo bo'ldi (tanlangan urnadan oq shar chizilgan). H 1, H 2, H 3 gipotezalarida A hodisasining shartli ehtimolliklari: P(A|H 1) = 3/4, P(A|H 2) = 2/5, P(A|H 3) = 1. Masalan, birinchi tenglik quyidagicha o'qiydi: "agar birinchi urna tanlangan bo'lsa, oq sharni chizish ehtimoli 3/4 ni tashkil qiladi (chunki birinchi urnada 4 ta shar bor va ulardan 3 tasi oq)."

Bayes formulasidan foydalanib, biz gipotezalarning posterior ehtimolliklarini topamiz:

Shunday qilib, A hodisaning ro'y berishi haqidagi ma'lumotlardan kelib chiqqan holda, gipotezalarning ehtimollari o'zgardi: H 3 gipotezasi eng ehtimolli, H 2 gipotezasi eng kam ehtimolli bo'ldi.

2-misol. Ikki otuvchi bir xil nishonga mustaqil ravishda o'q uzadi, har biri bittadan o'q uzadi. Birinchi otishma uchun nishonga tegish ehtimoli 0,8, ikkinchisi uchun - 0,4. Otishmadan keyin nishonda bitta teshik topildi. Bu teshik birinchi otuvchiga tegishli bo'lish ehtimolini toping (Natija (ikkala teshik bir-biriga to'g'ri keldi) e'tiborsiz bo'lganligi sababli bekor qilinadi).

Yechim. Tajribadan oldin quyidagi gipotezalar mumkin: H 1 = (birinchi ham, ikkinchi o'q ham tegmaydi), H 2 = (ikkala o'q ham tegadi), H 3 - (birinchi otuvchi uradi, ikkinchisi esa tushmaydi). ), H 4 = (birinchi otuvchi urmaydi, ikkinchisi esa uradi). Gipotezalarning oldingi ehtimoli:

P (H 1) = 0,2 * 0,6 = 0,12; P (H2) = 0,8 * 0,4 = 0,32; P (H 3) = 0,8 * 0,6 = 0,48; P (H 4) = 0,2 * 0,4 = 0,08.

Kuzatilgan hodisaning shartli ehtimollari A = (maqsadda bitta teshik bor) bu gipotezalar bo'yicha teng: P(A|H 1) = P(A|H 2) = 0; P(A|H 3) = P(A|H 4) = 1

Tajribadan so'ng H 1 va H 2 gipotezalari imkonsiz bo'lib qoladi va Bayes formulasi bo'yicha H 3 va H 4 gipotezalarining posterior ehtimoli quyidagicha bo'ladi:

Spamga qarshi

Bayes formulasi spam-filtrlarni ishlab chiqishda keng qo'llanilishini topdi. Aytaylik, siz qaysi elektron xatlar spam ekanligini aniqlash uchun kompyuterni o'rgatmoqchisiz. Biz lug'at va iboralardan Bayesian taxminlaridan foydalangan holda davom etamiz. Keling, birinchi navbatda farazlar maydonini yarataylik. Keling, har qanday harfga nisbatan ikkita faraz qilaylik: H A - spam, H B - spam emas, balki oddiy, kerakli xat.

Birinchidan, keling, kelajakdagi spamga qarshi tizimimizni “o'rgataylik”. Keling, bizda mavjud bo'lgan barcha harflarni olaylik va ularni har biri 10 ta harfdan iborat ikkita "qoziq" ga ajratamiz. Keling, spam xatlarni biriga joylashtiramiz va uni H A to'plami, ikkinchisida esa kerakli yozishmalarni H B to'plami deb ataymiz. Keling, ko'rib chiqaylik: spam va kerakli harflarda qanday so'zlar va iboralar va qaysi chastotada? Biz bu so‘z va iboralarni dalil deb ataymiz va ularni E 1, E 2 deb belgilaymiz... Ma’lum bo‘lishicha, H A va H B to‘plamlarida ko‘p qo‘llaniladigan so‘zlar (masalan, “o‘xshagan”, “sizning” so‘zlari) taxminan bilan sodir bo‘ladi. bir xil chastota. Shunday qilib, maktubda ushbu so'zlarning mavjudligi uni qaysi qoziqqa belgilash haqida hech narsa aytmaydi (zaif dalil). Keling, ushbu so'zlarga neytral "spam" ehtimoli ballini belgilaymiz, masalan, 0,5.

"Og'zaki ingliz" iborasi atigi 10 ta harfda va tez-tez spam xatlarda (masalan, barcha 10 tadan 7 ta spam harfda) kerak bo'lganlarga qaraganda (10 tadan 3 tasida) ko'rsatilsin. Keling, ushbu iboraga spam uchun yuqori baho beraylik: 7/10 va oddiy elektron pochta uchun pastroq reyting: 3/10. Aksincha, "do'st" so'zi oddiy harflarda ko'proq paydo bo'lgan (10 tadan 6 tasi). Va keyin biz qisqa xat oldik: "Do'stim! Ingliz tilini qanday bilasiz? ”. Keling, uning "spamligi" ni baholashga harakat qilaylik. Biz bir oz soddalashtirilgan Bayes formulasi va taxminiy hisoblarimizdan foydalangan holda har bir to'plamga tegishli harfning umumiy P(H A), P(H B) baholarini beramiz:

P(H A) = A/(A+B), Qayerda A = p a1 *p a2 *…*p an , B = p b1 *p b2 *…*p b n = (1 – p a1)*(1 – p a2)*… *(1 – p an).

1-jadval. Bayesning soddalashtirilgan (va to'liq bo'lmagan) yozish bahosi.

Shunday qilib, bizning faraziy xatimiz "spam" ga urg'u berilgan holda tegishli ball olish ehtimolini oldi. Xatni qoziqlardan biriga tashlashga qaror qilsak bo'ladimi? Keling, qaror qabul qilish chegaralarini belgilaymiz:

  • P(H i) ≥ T bo'lsa, harf H i to'plamiga tegishli deb faraz qilamiz.
  • Agar P(H i) ≤ L bo'lsa, harf to'plamga tegishli emas.
  • Agar L ≤ P(H i) ≤ T bo'lsa, u holda qaror qabul qilib bo'lmaydi.

Siz T = 0,95 va L = 0,05 ni olishingiz mumkin. Ko'rib chiqilayotgan xat uchun va 0,05< P(H A) < 0,95, и 0,05 < P(H В) < 0,95, то мы не сможем принять решение, куда отнести данное письмо: к спаму (H A) или к нужным письмам (H B). Можно ли улучшить оценку, используя больше информации?

Ha. Keling, Bayes taklif qilganidek, har bir dalil uchun ballni boshqacha tarzda hisoblaylik. Keling:

F a - spam xatlarining umumiy soni;

F ai - sertifikatga ega harflar soni i spam to'plamida;

F b - kerakli harflarning umumiy soni;

F bi - sertifikatga ega harflar soni i zarur (tegishli) harflar to'plamida.

Keyin: p ai = F ai /F a, p bi = F bi /F b. P(H A) = A/(A+B), P(H B) = B/(A+B), Qayerda A = p a1 *p a2 *…*p an , B = p b1 *p b2 *…*p b n

E'tibor bering, p ai va p bi dalil so'zlarini baholash ob'ektiv bo'lib, inson aralashuvisiz hisoblanishi mumkin.

Jadval 2. Xatdan mavjud xususiyatlar asosida Bayesning aniqroq (lekin to'liq bo'lmagan) taxmini

Biz juda aniq natijaga erishdik - katta afzallik bilan xatni to'g'ri harf sifatida tasniflash mumkin, chunki P (H B) = 0,997> T = 0,95. Nima uchun natija o'zgardi? Biz ko'proq ma'lumotdan foydalanganimiz uchun - biz har bir qoziqdagi harflar sonini hisobga oldik va aytmoqchi, p ai va p bi hisob-kitoblarini ancha to'g'ri aniqladik. Biz ularni Bayesning o'zi qilganidek, shartli ehtimollarni hisoblash yo'li bilan aniqladik. Boshqacha qilib aytadigan bo'lsak, p a3 - bu xatda "do'st" so'zining paydo bo'lish ehtimoli, agar bu xat allaqachon H A spam to'plamiga tegishli bo'lsa. Natija uzoq kutilmadi - biz aniqroq qaror qabul qila olamiz shekilli.

Bayes korporativ firibgarlikka qarshi

Bayes yondashuvining qiziqarli qo'llanilishi MAGNUS8 tomonidan tasvirlangan.

Mening joriy loyiham (ishlab chiqarish korxonasida firibgarlikni aniqlash uchun IS) firibgarlik qilish ehtimoli haqidagi gipoteza foydasiga bilvosita guvohlik beruvchi bir nechta faktlar mavjudligi/yo'qligida firibgarlik (firibgarlik) ehtimolini aniqlash uchun Bayes formulasidan foydalanadi. Algoritm o'z-o'zini o'rganish (mulohazalar bilan), ya'ni. iqtisodiy xavfsizlik xizmati tomonidan tekshirish paytida firibgarlik fakti tasdiqlangan yoki tasdiqlanmagan bo'lsa, uning koeffitsientlarini (shartli ehtimolliklarni) qayta hisoblab chiqadi.

Algoritmlarni loyihalashda bunday usullar ishlab chiquvchidan ancha yuqori matematik madaniyatni talab qilishini aytish kerak, chunki hisoblash formulalarini chiqarish va/yoki amalga oshirishdagi eng kichik xatolik butun usulni bekor qiladi va obro'sizlantiradi. Ehtimollik usullari bunga ayniqsa moyil, chunki inson tafakkuri ehtimollik toifalari bilan ishlashga moslashtirilmagan va shunga mos ravishda oraliq va yakuniy ehtimollik parametrlarining "jismoniy ma'nosi" ning "ko'rinishi" va tushunchasi yo'q. Bu tushuncha faqat ehtimollik nazariyasining asosiy tushunchalari uchun mavjud va keyin siz shunchaki ehtimollik nazariyasi qonunlariga muvofiq murakkab narsalarni juda ehtiyotkorlik bilan birlashtirishingiz va chiqarishingiz kerak - sog'lom fikr endi kompozitsion ob'ektlar uchun yordam bermaydi. Bu, xususan, ehtimollik falsafasi bo'yicha zamonaviy kitoblar sahifalarida bo'lib o'tadigan jiddiy uslubiy janglar, shuningdek, ushbu mavzu bo'yicha ko'plab sofizmlar, paradokslar va qiziq jumboqlar bilan bog'liq.

Men duch kelishim kerak bo'lgan yana bir nuance shundaki, afsuski, ushbu mavzu bo'yicha AMALIYATDA FOYDALI bo'lgan deyarli hamma narsa ingliz tilida yozilgan. Rus tilidagi manbalarda, asosan, faqat eng ibtidoiy holatlar uchun ko'rgazmali misollar bilan mashhur nazariya mavjud.

Men oxirgi fikrga to'liq qo'shilaman. Misol uchun, Google "Bayes ehtimolligi kitobi" kabi biror narsani topishga harakat qilganda, tushunarli narsa keltirmadi. To'g'ri, u Bayes statistikasi bilan kitob Xitoyda taqiqlanganligini xabar qildi. (Statistika professori Endryu Gelman Kolumbiya universiteti blogida uning "Regressiya va ko'p darajali/ierarxik modellar bilan ma'lumotlarni tahlil qilish" kitobini Xitoyda nashr etish taqiqlangani haqida xabar berdi. U erdagi nashriyot "kitob turli siyosiy jihatdan sezgir bo'lganligi sababli rasmiylar tomonidan tasdiqlanmadi" deb xabar berdi. Matndagi material.") Qiziq, shunga o'xshash sabab Rossiyada Bayes ehtimolligi haqidagi kitoblarning etishmasligiga olib keldimi?

Inson axborotini qayta ishlashda konservatizm

Ehtimollar noaniqlik darajasini belgilaydi. Ehtimol, Bayes va bizning sezgilarimizga ko'ra, bu shunchaki nol va bir oz ideallashtirilgan odamning bayonotning to'g'riligiga ishonish darajasini ifodalovchi nol orasidagi raqam. Shaxsni ma'lum darajada idealizatsiya qilishining sababi shundaki, uning ikkita bir-birini istisno qiladigan hodisalar uchun ehtimoli yig'indisi uning har ikkala hodisaning yuzaga kelish ehtimoliga teng bo'lishi kerak. Qo'shimchalarning xossasi shunday oqibatlarga olib keladiki, ularning barchasi bilan bir nechta haqiqiy odamlar uchrashishi mumkin.

Bayes teoremasi qo'shiluvchanlik xususiyatining ahamiyatsiz natijasi bo'lib, shubhasiz va barcha ehtimollar, Bayesian va boshqalar tomonidan kelishilgan. Buni yozishning bir usuli quyidagicha. Agar P(H A |D) gipoteza A ma’lum D qiymat kuzatilgandan keyin paydo bo‘lishining keyingi ehtimoli bo‘lsa, P(H A) uning D qiymati kuzatilgandan oldingi oldingi ehtimoli, P(D|H A ) – a berilgan D qiymati kuzatiladi, agar H A rost bo'lsa va P(D) berilgan D qiymatining shartsiz ehtimoli bo'lsa, u holda

(1) P(H A |D) = P(D|H A) * P(H A) / P(D)

P (D) eng yaxshi ko'rib chiqilayotgan o'zaro eksklyuziv gipotezalarning to'liq to'plami bo'yicha posterior ehtimolliklarni birlashtirishga olib keladigan normallashtiruvchi doimiy deb hisoblanadi. Agar hisoblash kerak bo'lsa, u quyidagicha bo'lishi mumkin:

Ammo ko'pincha P (D) hisoblangandan ko'ra chiqarib tashlanadi. Buni bartaraf etishning qulay usuli Bayes teoremasini ehtimollik nisbati shakliga aylantirishdir.

H A bilan bir-birini istisno qiladigan H B gipotezasini ko'rib chiqing va H A haqidagi fikringizni o'zgartirgan bir xil miqdorga asoslanib, bu haqda fikringizni o'zgartiring

(2) P(H B |D) = P(D|H B) * P(H B) / P(D)

Endi 1 tenglamani 2 tenglamaga ajratamiz; natija shunday bo'ladi:

Bu erda Ō 1 H A dan H B gacha bo'lgan orqa koeffitsientlar, Ō 0 - oldingi koeffitsientlar va L - ehtimollik nisbati sifatida statistiklarga tanish bo'lgan miqdor. Tenglama 3 Bayes teoremasining 1 tenglama bilan bir xil tegishli versiyasidir va ko'pincha, ayniqsa gipotezalarni o'z ichiga olgan tajribalar uchun sezilarli darajada foydalidir. Bayeschilarning ta'kidlashicha, Bayes teoremasi yangi dalillar asosida fikrlarni qanday qayta ko'rib chiqish haqida rasmiy optimal qoidadir.

Biz Bayes teoremasi tomonidan aniqlangan ideal xatti-harakatni odamlarning haqiqiy xatti-harakati bilan taqqoslashdan manfaatdormiz. Bu nimani anglatishini tushunish uchun keling, siz bilan sinov mavzusi sifatida tajriba o'tkazamiz. Ushbu sumkada 1000 ta poker chiplari mavjud. Menda ikkita shunday sumka bor, birida 700 qizil va 300 ko'k chip, ikkinchisida 300 qizil va 700 ko'k bor. Qaysi birini ishlatishni aniqlash uchun tanga tashladim. Shunday qilib, agar bizning fikrlarimiz bir xil bo'lsa, ko'proq qizil chiplarni o'z ichiga olgan sumkani olish ehtimoli 0,5 ga teng. Endi siz har bir chipdan keyin qaytish bilan tasodifiy tanlov qilasiz. 12 chipda siz 8 qizil va 4 ko'k olasiz. Endi siz bilgan hamma narsaga asoslanib, eng ko'p qizil rangga ega bo'lgan sumkaning tushishi ehtimoli qanday? 0,5 dan yuqori ekanligi aniq. Iltimos, ballingizni yozmaguningizcha o'qishni davom ettirmang.

Agar siz oddiy imtihon topshiruvchiga o'xshasangiz, sizning ballingiz 0,7 dan 0,8 gacha tushib ketdi. Agar biz tegishli hisob-kitoblarni amalga oshirsak, javob 0,97 bo'ladi. Ilgari konservatizm ta'sirini ko'rsatmagan odam, hatto Bayes teoremasi bilan tanish bo'lsa ham, bunday yuqori bahoga erishishi juda kam uchraydi.

Agar sumkada qizil chiplarning nisbati bo'lsa r, keyin olish ehtimoli r qizil chiplar va ( n -r) ko'k rangda n qaytariladigan namunalar - p r (1–p)n–r. Shunday qilib, sumka va poker chiplari bilan odatiy tajribada, agar NA qizil chiplarning nisbati ekanligini anglatadi r A Va NB– ulush ekanligini bildiradi rB, keyin ehtimollik nisbati:

Bayes formulasini qo'llashda u amalga oshirgan, lekin amalga oshirmagan boshqa kuzatishlar ehtimolini emas, balki faqat haqiqiy kuzatish ehtimolini hisobga olish kerak. Bu tamoyil Bayes teoremasining barcha statistik va statistik bo'lmagan qo'llanilishi uchun keng ma'noga ega; u Bayes fikrlash uchun eng muhim texnik vositadir.

Bayes inqilobi

Sizning do'stlaringiz va hamkasblaringiz "Bayes teoremasi" yoki "Bayes qoidasi" yoki Bayes fikrlash deb ataladigan narsa haqida gapirishmoqda. Ular bunga juda qiziq, shuning uchun siz internetga kirasiz va Bayes teoremasi haqidagi sahifani topasiz va... Bu tenglama. Hammasi shu... Nega matematik tushuncha ongda bunday ishtiyoq hosil qiladi? Olimlar orasida qanday "Bayes inqilobi" sodir bo'lmoqda va hatto eksperimental yondashuvning o'zi ham uning maxsus holati sifatida tavsiflanishi mumkinligi ta'kidlanadi? Bayesliklar bilishining siri nimada? Ular qanday yorug'likni ko'rishadi?

Fanda Bayes inqilobi sodir bo'lmadi, chunki tobora ko'proq kognitiv olimlar birdan ruhiy hodisalarning Bayes tuzilishiga ega ekanligini payqashdi; har bir soha olimlari Bayes usulidan foydalana boshlagani uchun emas; lekin fanning o'zi Bayes teoremasining maxsus holati bo'lgani uchun; eksperimental dalil Bayes isbotidir. Bayeslik inqilobchilarning ta'kidlashicha, siz tajriba o'tkazganingizda va sizning nazariyangizni "tasdiqlaydigan" yoki "inkor qiladigan" dalillarni olganingizda, bu tasdiqlash yoki rad etish Bayes qoidalariga muvofiq sodir bo'ladi. Misol uchun, siz nafaqat nazariyangiz hodisani tushuntira olishini, balki ushbu hodisani bashorat qila oladigan boshqa mumkin bo'lgan tushuntirishlar ham mavjudligini hisobga olishingiz kerak.

Ilgari fanning eng mashhur falsafasi Bayes inqilobi bilan almashtirilgan eski falsafa edi. Karl Popperning nazariyalarni butunlay soxtalashtirish mumkin, lekin hech qachon to'liq tasdiqlanmaydi, degan fikri Bayes qoidalarining yana bir alohida holatidir; agar p(X|A) ≈ 1 - agar nazariya to'g'ri bashorat qilsa, u holda ~X ni kuzatish A ni juda kuchli tarzda soxtalashtiradi. nazariya; Balki boshqa qandaydir B sharti ham mumkin, ya'ni p(X|B) ≈ 1 va bunda X kuzatuvi A foydasiga emas, balki B ning foydasiga guvohlik beradi. X kuzatuvi A ni aniq tasdiqlashi uchun biz shunday bo'lar edik. p(X|A) ≈ 1 va p(X|~A) ≈ 0 ekanligini bilmaslik, chunki biz barcha mumkin bo'lgan muqobil tushuntirishlarni ko'rib chiqa olmaymiz. Masalan, Eynshteynning umumiy nisbiylik nazariyasi Nyutonning yaxshi qoʻllab-quvvatlangan tortishish nazariyasidan oshib ketganda, u Nyuton nazariyasining barcha bashoratlarini Eynshteyn bashoratlarining alohida holatiga aylantirdi.

Xuddi shunga o'xshash tarzda, Popperning fikr soxta bo'lishi kerakligi haqidagi da'vosini Bayesning ehtimollikni saqlash qoidasining ko'rinishi sifatida talqin qilish mumkin; agar X natija nazariya uchun ijobiy dalil bo'lsa, ~ X natija ma'lum darajada nazariyani rad etishi kerak. Agar siz X va X ikkalasini ham nazariyani "tasdiqlovchi" deb talqin qilishga harakat qilsangiz, Bayes qoidalari buning iloji yo'qligini aytadi! Nazariya ehtimolini oshirish uchun siz uni ehtimolini kamaytirishi mumkin bo'lgan testlardan o'tishingiz kerak; Bu fandagi charlatanlarni aniqlash qoidasi emas, balki Bayes ehtimollik teoremasining natijasidir. Boshqa tomondan, Popperning faqat soxtalashtirish kerak va hech qanday tasdiqlash kerak emas degan fikri noto'g'ri. Bayes teoremasi shuni ko'rsatadiki, soxtalashtirish tasdiqlash bilan solishtirganda juda kuchli dalildir, ammo qalbakilashtirish hali ham ehtimollik xususiyatiga ega; u tubdan boshqa qoidalar bilan boshqarilmaydi va Popper ta'kidlaganidek, bu tarzda tasdiqlashdan farq qilmaydi.

Shunday qilib, biz kognitiv fanlardagi ko'plab hodisalar, shuningdek, olimlar tomonidan qo'llaniladigan statistik usullar va ilmiy usulning o'zi Bayes teoremasining maxsus holatlari ekanligini aniqlaymiz. Bu Bayes inqilobi.

Bayesian fitnasiga xush kelibsiz!

Bayes ehtimolligi haqidagi adabiyotlar

2. Bayesning juda ko'p turli xil ilovalari iqtisod bo'yicha Nobel mukofoti sovrindori Kahneman (va uning o'rtoqlari) tomonidan ajoyib kitobda tasvirlangan. Faqatgina ushbu juda katta kitobning qisqacha xulosasida men Presviterian vazirining nomini 27 ta eslatib o'tdim. Minimal formulalar. (.. Menga juda yoqdi. To‘g‘ri, biroz murakkab, matematika juda ko‘p (usiz biz qayerda bo‘lar edik), lekin alohida boblar (masalan, 4-bob. Ma’lumot) mavzuga oid aniq. Tavsiya qilaman. hammaga matematika siz uchun qiyin bo'lsa ham, boshqa har bir satrni o'qing, matematikani o'tkazib yuboring va foydali donlarni qidiring ...

14. (2017 yil 15 yanvardagi qo'shimcha), Toni Krilli kitobidan bob. Siz bilishingiz kerak bo'lgan 50 ta g'oya. Matematika.

Nobel mukofoti laureati, fizik Richard Feynman bir faylasufning o'ziga xosligi haqida gapirar ekan, bir marta shunday degan edi: “Meni g'azablantirayotgan narsa falsafa fan sifatida emas, balki uning atrofida yaratilgan dabdabadir. Qaniydi faylasuflar o‘z ustidan kulsa! Qaniydi ular: "Men buni shunday deyman, lekin Von Leyptsig buni boshqacha deb o'ylagan va u ham bu haqda nimanidir biladi" deb aytishsa. Qani endi ular bu faqat ularniki ekanligini aniqlab berishni eslashsa .

Bayes teoremasi alohida maqolada batafsil tavsiflangan. Bu ajoyib asar, lekin u 15 000 so'zdan iborat. Kalid Azaddan maqolaning xuddi shu tarjimasi teoremaning mohiyatini qisqacha tushuntiradi.

  • Tadqiqot va sinov natijalari voqea emas. Saraton kasalligini aniqlash usuli mavjud va hodisaning o'zi ham bor - kasallikning mavjudligi. Algoritm xabarda spam bor-yo'qligini tekshiradi, ammo voqea (spam haqiqatan ham pochta orqali kelgan) uning ish natijasidan alohida ko'rib chiqilishi kerak.
  • Sinov natijalarida xatolar mavjud. Ko'pincha bizning tadqiqot usullari mavjud bo'lmagan narsalarni (noto'g'ri ijobiy) aniqlaydi va nima borligini (noto'g'ri salbiy) aniqlamaydi.
  • Sinovlar yordamida biz ma'lum bir natijaning ehtimolini olamiz. Ko'pincha biz test natijalarini mustaqil ravishda ko'rib chiqamiz va usul xatolarini hisobga olmaymiz.
  • Noto'g'ri ijobiy natijalar rasmni buzadi. Aytaylik, siz juda kam uchraydigan hodisani aniqlashga harakat qilyapsiz (1 000 000 ta holat). Sizning usulingiz to'g'ri bo'lsa ham, sizning ijobiy natijangiz noto'g'ri ijobiy bo'lishi ehtimoli bor.
  • Natural sonlar bilan ishlash qulayroq. Aytish yaxshiroq: 1% emas, 10000 dan 100 ta. Ushbu yondashuv bilan, ayniqsa, ko'paytirishda kamroq xatolar bo'ladi. Aytaylik, biz ushbu 1% bilan ishlashni davom ettirishimiz kerak. Foizlarda mulohaza yuritish noqulay: "1% holatlarning 80 foizida ijobiy natija bo'ldi." Ma'lumotni quyidagicha qabul qilish ancha oson: "100 ta holatdan 80 tasida ijobiy natija kuzatildi".
  • Hatto fanda ham har qanday fakt faqat usulni qo'llash natijasidir. Falsafiy nuqtai nazardan, ilmiy eksperiment shunchaki xatolik ehtimoli bo'lgan sinovdir. Kimyoviy moddani yoki qandaydir hodisani ochib beradigan usul bor va hodisaning o'zi bor - bu hodisaning mavjudligi. Sinov usullarimiz noto'g'ri natijalar berishi mumkin va barcha jihozlar o'ziga xos xatolikka ega.
Bayes teoremasi test natijalarini hodisalar ehtimoliga aylantiradi.
  • Agar biz hodisaning ehtimolini va noto'g'ri musbat va noto'g'ri salbiy ehtimolini bilsak, o'lchash xatolarini tuzatishimiz mumkin.
  • Teorema hodisa ehtimolini ma'lum bir natija ehtimoli bilan bog'laydi. Biz Pr(A|X) ni bog‘lashimiz mumkin: A hodisasining ehtimoli, berilgan X natijasi va Pr(X|A): A hodisasi berilgan X natija ehtimoli.

Keling, usulni tushunaylik

Ushbu inshoning boshida bog'langan maqolada ko'krak bezi saratonini aniqlaydigan diagnostika usuli (mammogramma) ko'rib chiqiladi. Keling, ushbu usulni batafsil ko'rib chiqaylik.
  • Barcha ayollarning 1 foizi ko'krak bezi saratoniga chalinadi (va shunga mos ravishda 99 foizi uni yuqtirmaydi)
  • Mammogrammalarning 80% kasallikni haqiqatda mavjud bo'lganda aniqlaydi (va shunga mos ravishda 20% uni aniqlamaydi)
  • Sinovlarning 9,6 foizi saraton kasalligini yo'q bo'lganda aniqlaydi (va shunga mos ravishda 90,4 foizi salbiy natijani to'g'ri aniqlaydi)
Endi shunday jadval tuzamiz:

Ushbu ma'lumotlar bilan qanday ishlash kerak?
  • Ayollarning 1 foizi ko'krak saratoniga chalinadi
  • Agar bemorga kasallik tashxisi qo'yilgan bo'lsa, birinchi ustunga qarang: usul to'g'ri natija berganligining 80% ehtimoli va test natijasi noto'g'ri (noto'g'ri salbiy) bo'lishining 20% ​​ehtimoli bor.
  • agar bemorning kasalligi aniqlanmagan bo'lsa, ikkinchi ustunga qarang. 9,6% ehtimol bilan biz tadqiqotning ijobiy natijasi noto'g'ri, 90,4% ehtimol bilan bemor haqiqatan ham sog'lom deb aytishimiz mumkin.

Usul qanchalik to'g'ri?

Keling, ijobiy test natijasini ko'rib chiqaylik. Odamning haqiqatan ham kasal bo'lish ehtimoli qanday: 80%, 90%, 1%?

Keling, o'ylab ko'raylik:

  • Ijobiy natija bor. Keling, barcha mumkin bo'lgan natijalarni ko'rib chiqaylik: natija haqiqiy ijobiy yoki noto'g'ri ijobiy bo'lishi mumkin.
  • Haqiqiy ijobiy natija ehtimoli quyidagilarga teng: kasallikni yuqtirish ehtimoli testning haqiqatda kasallikni aniqlaganligi ehtimoliga ko'paytiriladi. 1% * 80% = .008
  • Noto'g'ri ijobiy natija ehtimoli quyidagilarga teng: kasallikning yo'qligi ehtimolligi usul kasallikni noto'g'ri aniqlash ehtimoliga ko'paytiriladi. 99% * 9,6% = .09504
Endi jadval quyidagicha ko'rinadi:

Agar ijobiy mamogramma olingan bo'lsa, odamning haqiqatan ham kasal bo'lish ehtimoli qanday? Hodisa ehtimoli - bu hodisaning mumkin bo'lgan natijalari sonining barcha mumkin bo'lgan natijalarning umumiy soniga nisbati.

Hodisa ehtimoli = hodisaning natijalari / barcha mumkin bo'lgan natijalar

Haqiqiy ijobiy natija ehtimoli .008 ga teng. Ijobiy natija ehtimoli - haqiqiy ijobiy natija ehtimoli + noto'g'ri ijobiy natija ehtimoli.

(.008 + 0.09504 = .10304)

Shunday qilib, ijobiy test natijasi bilan kasallik ehtimoli quyidagicha hisoblanadi: .008/.10304 = 0.0776. Bu qiymat taxminan 7,8% ni tashkil qiladi.

Ya'ni, ijobiy mamogramma natijasi faqat kasallik ehtimoli 80% emas, balki 7,8% ekanligini anglatadi (oxirgi qiymat faqat usulning taxminiy aniqligi). Bu natija dastlab tushunarsiz va g'alati tuyuladi, lekin siz e'tiborga olishingiz kerak: usul 9,6% hollarda noto'g'ri ijobiy natija beradi (bu juda ko'p), shuning uchun namunada juda ko'p noto'g'ri ijobiy natijalar bo'ladi. Kamdan kam uchraydigan kasallik uchun ijobiy natijalarning aksariyati noto'g'ri bo'ladi.

Keling, jadvalni ko'rib chiqaylik va teoremaning ma'nosini intuitiv ravishda tushunishga harakat qilaylik. Agar bizda 100 kishi bo'lsa, ulardan faqat bittasida kasallik bor (1%). Bu odam uchun usul ijobiy natija berishining 80% ehtimoli bor. Qolgan 99% dan 10% ijobiy natijalarga ega bo'ladi, bu bizga taxminan 100 tadan 10 ta noto'g'ri ijobiy natija beradi. Agar barcha ijobiy natijalarni hisobga olsak, 11 tadan faqat 1 tasi to'g'ri bo'ladi. Shunday qilib, agar ijobiy natija olinsa, kasallik ehtimoli 1/11 ni tashkil qiladi.

Yuqorida biz bu ehtimollik 7,8% ekanligini hisoblab chiqdik, ya'ni. Bu raqam aslida 1/13 ga yaqinroq, ammo bu erda oddiy mulohaza yuritish bilan biz kalkulyatorsiz taxminiy taxminni topa oldik.

Bayes teoremasi

Keling, Bayes teoremasi deb nomlangan formuladan foydalanib, fikrlash pog'onasini tasvirlaylik. Ushbu teorema tadqiqot natijalarini noto'g'ri ijobiy natijalar bilan kiritilgan buzilishlarga muvofiq tuzatishga imkon beradi:
  • Pr (A | X) = ijobiy natija (X) berilgan kasallik (A) ehtimoli. Bu biz bilmoqchi bo'lgan narsa: agar natija ijobiy bo'lsa, hodisaning ehtimoli qanday. Bizning misolimizda bu 7,8% ni tashkil qiladi.
  • Pr (X | A) = bemor haqiqatan ham kasal bo'lgan taqdirda ijobiy natija (X) ehtimoli (A). Bizning holatda, bu haqiqiy ijobiy qiymat - 80%
  • Pr(A) = kasallanish ehtimoli (1%)
  • Pr (A emas) = ​​kasal bo'lmaslik ehtimoli (99%)
  • Pr (X | A emas) = ​​kasallik bo'lmasa, tadqiqotning ijobiy natijasi ehtimoli. Bu noto'g'ri ijobiy ko'rsatkich - 9,6%.
Xulosa qilishimiz mumkin: hodisaning ehtimolini olish uchun siz haqiqiy ijobiy natija ehtimolini barcha ijobiy natijalar ehtimoliga bo'lishingiz kerak. Endi biz tenglamani soddalashtirishimiz mumkin:
Pr(X) - normalizatsiya konstantasi. Bu bizga yaxshi xizmat qildi: usiz testning ijobiy natijasi bizga voqea sodir bo'lishining 80% imkoniyatini bergan bo'lardi.
Pr (X) - bemorlarni o'rganishda haqiqiy ijobiy natija (1%) yoki sog'lom odamlarni o'rganishda noto'g'ri ijobiy natija (99%) bo'ladimi, har qanday ijobiy natija ehtimoli.

Bizning misolimizda Pr (X) juda katta raqam, chunki noto'g'ri ijobiy natijalar ehtimoli yuqori.

Pr (X) 7,8% natija beradi, bu birinchi qarashda qarama-qarshi ko'rinadi.

Teoremaning ma'nosi

Biz ishlarning haqiqiy holatini aniqlash uchun sinovlarni o'tkazmoqdamiz. Agar testlarimiz mukammal va to'g'ri bo'lsa, unda testlarning ehtimollari va hodisalarning ehtimollari mos keladi. Barcha ijobiy natijalar haqiqatan ham ijobiy bo'ladi va barcha salbiy natijalar salbiy bo'ladi. Ammo biz haqiqiy dunyoda yashayapmiz. Va bizning dunyomizda testlar noto'g'ri natijalar beradi. Bayes teoremasi noto'g'ri natijalarni hisobga oladi, xatolarni tuzatadi, populyatsiyani qayta tiklaydi va haqiqiy ijobiy ehtimolini topadi.

Spam filtri

Bayes teoremasi spam filtrlarida muvaffaqiyatli qo'llaniladi.

Bizda ... bor:

  • voqea A - xatdagi spam
  • test natijasi - xatdagi ba'zi so'zlarning mazmuni:

Filtr sinov natijalarini (maktubdagi ma'lum so'zlarning mazmunini) hisobga oladi va xatda spam bor yoki yo'qligini taxmin qiladi. Har bir inson, masalan, "Viagra" so'zi oddiy harflarga qaraganda ko'proq spamda topilganligini tushunadi.

Qora ro'yxatga asoslangan spam-filtrning kamchiliklari bor - u ko'pincha noto'g'ri ijobiy natijalar beradi.

Bayes teoremasi spam filtri muvozanatli va aqlli yondashuvdan foydalanadi: u ehtimollar bilan ishlaydi. Elektron pochtadagi so'zlarni tahlil qilganimizda, ha/yo'q qarorlarini qabul qilishdan ko'ra, elektron pochtaning spam bo'lish ehtimolini hisoblashimiz mumkin. Agar xatda spam bo'lish ehtimoli 99% bo'lsa, xat haqiqatan ham shunday.

Vaqt o'tishi bilan filtr kattaroq namunaga o'rgatiladi va ehtimolliklarni yangilaydi. Shunday qilib, Bayes teoremasi asosida yaratilgan ilg'or filtrlar qatordagi ko'plab so'zlarni tekshiradi va ularni ma'lumot sifatida ishlatadi.

Qo'shimcha manbalar:

Teglar: teglar qo'shish

Bayes formulasi:

H i gipotezalarining P(H i) ehtimollari aprior ehtimollar - tajribalar o'tkazishdan oldingi ehtimollar deb ataladi.
P(A/H i) ehtimollari posterior ehtimollar deb ataladi - H i gipotezalarning tajriba natijasida aniqlangan ehtimollari.

Misol № 1. Qurilmani yuqori sifatli qismlardan va oddiy sifatli qismlardan yig'ish mumkin. Qurilmalarning 40% ga yaqini yuqori sifatli qismlardan yig'ilgan. Agar qurilma yuqori sifatli qismlardan yig'ilgan bo'lsa, uning ishonchliligi (nosozliksiz ishlash ehtimoli) t vaqt ichida 0,95; agar u oddiy sifatli qismlardan tayyorlangan bo'lsa, uning ishonchliligi 0,7 ga teng. Qurilma t vaqt davomida sinovdan o'tkazildi va benuqson ishladi. Uning yuqori sifatli qismlardan yasalganligi ehtimolini toping.
Yechim. Ikkita gipoteza mumkin: H 1 - qurilma yuqori sifatli qismlardan yig'ilgan; H 2 - qurilma oddiy sifatli qismlardan yig'ilgan. Tajriba oldidan bu gipotezalarning ehtimolliklari: P(H 1) = 0,4, P(H 2) = 0,6. Tajriba natijasida A hodisasi kuzatildi - qurilma t vaqt davomida benuqson ishladi. H 1 va H 2 gipotezalarida bu hodisaning shartli ehtimollari teng: P(A|H 1) = 0,95; P(A|H 2) = 0,7. (12) formuladan foydalanib, tajribadan keyin H 1 gipoteza ehtimolini topamiz:

Misol № 2. Ikki otuvchi bir-biridan mustaqil ravishda bitta nishonga o'q uzadi, har biri bittadan o'q uzadi. Birinchi otishma uchun nishonga tegish ehtimoli 0,8, ikkinchisi uchun 0,4. Otishmadan keyin nishonda bitta teshik topildi. Ikki otuvchi bir nuqtaga ura olmaydi deb faraz qilsak, birinchi otganning nishonga tegish ehtimolini toping.
Yechim. A hodisasi bo'lsin - otishdan so'ng nishonda bitta teshik aniqlanadi. Rasmga tushirish boshlanishidan oldin farazlar mumkin:
H 1 - na birinchi, na ikkinchi otuvchi urmaydi, bu gipotezaning ehtimoli: P (H 1) = 0,2 · 0,6 = 0,12.
H 2 - ikkala otuvchi ham urishadi, P(H 2) = 0,8 · 0,4 = 0,32.
H 3 - birinchi otuvchi uradi, lekin ikkinchisi urmaydi, P(H 3) = 0,8 · 0,6 = 0,48.
H 4 - birinchi otuvchi urmaydi, lekin ikkinchisi uradi, P (H 4) = 0,2 · 0,4 = 0,08.
Ushbu gipotezalar bo'yicha A hodisasining shartli ehtimollari teng:

Tajribadan so'ng H 1 va H 2 gipotezalari imkonsiz bo'lib qoladi va H 3 va H 4 gipotezalarining ehtimollari.
teng bo'ladi:


Demak, mo‘ljalga birinchi o‘q uzgan bo‘lsa kerak.

Misol № 3. O'rnatish ustaxonasida qurilmaga elektr motor ulangan. Elektr dvigatellari uchta ishlab chiqaruvchi tomonidan etkazib beriladi. Omborda 0,85, 0,76 va 0,71 ehtimollik bilan kafolat muddati tugagunga qadar ishdan chiqmasdan ishlashi mumkin bo'lgan mos ravishda 19,6 va 11 dona miqdorda nomdagi zavodlarning elektr motorlari mavjud. Ishchi tasodifiy bitta motorni oladi va uni qurilmaga o'rnatadi. O'rnatilgan va kafolat muddati tugagunga qadar ishlamay qolgan elektr motorining mos ravishda birinchi, ikkinchi yoki uchinchi ishlab chiqaruvchi tomonidan etkazib berilishi ehtimolini toping.
Yechim. Birinchi sinov - elektr motorini tanlash, ikkinchisi - kafolat muddati davomida elektr motorining ishlashi. Quyidagi voqealarni ko'rib chiqing:
A - elektr motor kafolat muddati tugagunga qadar uzilishlarsiz ishlaydi;
H 1 - o'rnatuvchi dvigatelni birinchi zavodning ishlab chiqarishidan oladi;
H 2 - o'rnatuvchi dvigatelni ikkinchi zavodning ishlab chiqarishidan oladi;
H 3 - o'rnatuvchi dvigatelni uchinchi zavodning ishlab chiqarishidan oladi.
A hodisasining ehtimoli umumiy ehtimollik formulasi yordamida hisoblanadi:

Shartli ehtimolliklar muammo bayonotida ko'rsatilgan:

Keling, ehtimolliklarni topaylik


Bayes formulalaridan (12) foydalanib, H i gipotezalarining shartli ehtimolliklarini hisoblaymiz:

Misol № 4. Uch elementdan iborat bo'lgan tizimning ishlashi paytida 1, 2 va 3-raqamli elementlarning ishdan chiqishi ehtimoli 3: 2: 5 nisbatda. Bu elementlarning nosozliklarini aniqlash ehtimoli mos ravishda 0,95 ga teng; 0,9 va 0,6.

b) Ushbu vazifaning shartlariga ko'ra, tizimning ishlashi paytida nosozlik aniqlandi. Qaysi element muvaffaqiyatsizlikka uchragan?

Yechim.
A muvaffaqiyatsiz hodisa bo'lsin. H1 - birinchi elementning ishdan chiqishi, H2 - ikkinchi elementning ishdan chiqishi, H3 - uchinchi elementning ishdan chiqishi gipotezalar tizimini kiritamiz.
Gipotezalarning ehtimolliklarini topamiz:
P (H1) = 3/(3+2+5) = 0,3
P (H2) = 2/(3+2+5) = 0,2
P (H3) = 5/(3+2+5) = 0,5

Muammoning shartlariga ko'ra, A hodisaning shartli ehtimollari quyidagilarga teng:
P(A|H1) = 0,95, P(A|H2) = 0,9, P(A|H3) = 0,6

a) Tizimdagi nosozlikni aniqlash ehtimolini toping.
P(A) = P(H1)*P(A|H1) + P(H2)*P(A|H2) + P(H3)*P(A|H3) = 0,3*0,95 + 0,2*0,9 + 0,5 *0,6 = 0,765

b) Ushbu vazifaning shartlariga ko'ra, tizimning ishlashi paytida nosozlik aniqlandi. Qaysi element muvaffaqiyatsizlikka uchragan?
P1 = P(H1)*P(A|H1)/ P(A) = 0,3*0,95 / 0,765 = 0,373
P2 = P(H2)*P(A|H2)/ P(A) = 0,2*0,9 / 0,765 = 0,235
P3 = P(H3)*P(A|H3)/ P(A) = 0,5*0,6 / 0,765 = 0,392

Uchinchi element maksimal ehtimollikka ega.