1 mai 2021 18:51
Care este distribuția normală?
Distribuție normală Formula se bazează pe două Parameters- simplu medie și abaterea standard -care cuantifica caracteristicile unui anumit set de date. În timp ce media indică valoarea „centrală” sau medie a întregului set de date, abaterea standard indică „răspândirea” sau variația punctelor de date în jurul valorii medii.
Exemplu
Luați în considerare următoarele 2 seturi de date:
- Set de date 1 = {10, 10, 10, 10, 10, 10, 10, 10, 10, 10}
- Set de date 2 = {6, 8, 10, 12, 14, 14, 12, 10, 8, 6}
Pentru Dataset1, media = 10 și deviația standard (stddev) = 0
Pentru Dataset2, media = 10 și deviația standard (stddev) = 2,83
Să trasăm aceste valori pentru DataSet1:
În mod similar pentru DataSet2:
Linia orizontală roșie din ambele grafice de mai sus indică „media” sau valoarea medie a fiecărui set de date (10 în ambele cazuri). Săgețile roz din al doilea grafic indică răspândirea sau variația valorilor datelor față de valoarea medie. Aceasta este reprezentată de valoarea deviației standard de 2,83 în cazul DataSet2. Deoarece DataSet1 are toate valorile aceleași (ca 10 fiecare) și fără variații, valoarea stddev este zero și, prin urmare, nu sunt aplicabile săgeți roz.
Valoarea stddev are câteva caracteristici semnificative și utile care sunt extrem de utile în analiza datelor. Pentru o distribuție normală, valorile datelor sunt distribuite simetric de ambele părți ale mediei. Pentru orice set de date distribuit în mod normal, graficul grafic cu stddev pe axa orizontală și nr. a valorilor datelor pe axa verticală, se obține următorul grafic.
Proprietățile unei distribuții normale
- Curba normală este simetrică față de medie;
- Media este la mijloc și împarte zona în două jumătăți;
- Suprafața totală de sub curbă este egală cu 1 pentru medie = 0 și stdev = 1;
- Distribuția este complet descrisă prin media și stddev
După cum se poate vedea din graficul de mai sus, stddev reprezintă următoarele:
- 68,3% din valorile datelor se încadrează în 1 deviație standard a mediei (-1 la +1)
- 95,4% din valorile datelor se încadrează în 2 abateri standard ale mediei (-2 până la +2)
- 99,7% din valorile datelor se încadrează în 3 deviații standard ale mediei (-3 până la +3)
Zona sub curba în formă de clopot, atunci când este măsurată, indică probabilitatea dorită pentru un interval dat:
- mai puțin de X: – de exemplu, probabilitatea ca valorile datelor să fie mai mici de 70
- mai mare decât X – de exemplu, probabilitatea ca valorile datelor să fie mai mari de 95
- între X 1 și X 2 – de exemplu, probabilitatea valorilor datelor cuprinse între 65 și 85
unde X este o valoare a interesului (exemple mai jos).
Trasarea și calcularea zonei nu sunt întotdeauna convenabile, deoarece seturi de date diferite vor avea valori medii și stddev diferite. Pentru a facilita o metodă standard uniformă pentru calcule ușoare și aplicabilitate la probleme din lumea reală, a fost introdusă conversia standard în valori Z, care fac parte din tabelul de distribuție normală.
Z = (X – medie) / stddev, unde X este variabila aleatorie.
Practic, această conversie forțează media și stddev să fie standardizate la 0 și respectiv 1, ceea ce permite utilizarea unui set standard de valori Z (din tabelul de distribuție normală ) pentru calcule ușoare. Un instantaneu al tabelei standard de valori Z care conține valori de probabilitate este după cum urmează:
Pentru a găsi probabilitatea legată de valoarea z de 0,239865, rotunjiți-o mai întâi la 2 zecimale (adică 0,24). Apoi verificați pentru primele 2 cifre semnificative (0,2) în rânduri și pentru cifra cea mai puțin semnificativă (0,04 rămasă) în coloană. Aceasta va duce la valoarea de 0,09483.
Tabelul complet de distribuție normală, cu precizie de până la 5 puncte zecimale pentru valorile probabilității (inclusiv cele pentru valorile negative), poate fi găsit aici.
Să vedem câteva exemple din viața reală. Înălțimea indivizilor dintr-un grup mare urmează un model normal de distribuție. Să presupunem că avem un set de 100 de indivizi ale căror înălțimi sunt înregistrate și media și stddev sunt calculate la 66 și respectiv 6 inci.
Iată câteva exemple de întrebări la care se poate răspunde cu ușurință folosind tabelul cu valori z:
- Care este probabilitatea ca o persoană din grup să aibă 70 de centimetri sau mai puțin?
Întrebarea este de a găsi valoarea cumulativă a lui P (X <= 70), adică în întregul set de date de 100, câte valori vor fi între 0 și 70.
Să convertim mai întâi valoarea X de 70 la valoarea Z echivalentă.
Z = (X – medie) / stddev = (70-66) / 6 = 4/6 = 0.66667 = 0.67 (rotunjit la 2 zecimale)
Acum trebuie să găsim P (Z <= 0.67) = 0. 24857 (din tabelul z de mai sus)
adică există o probabilitate de 24,857% ca o persoană din grup să fie mai mică sau egală cu 70 inci.
Dar stai așa – cele de mai sus sunt incomplete. Amintiți-vă, căutăm probabilitatea tuturor înălțimilor posibile până la 70, adică de la 0 la 70. Cele de mai sus vă oferă doar porțiunea de la valoarea medie la valoarea dorită (adică 66 la 70). Trebuie să includem cealaltă jumătate – de la 0 la 66 – pentru a ajunge la răspunsul corect.
Deoarece 0 până la 66 reprezintă jumătatea porțiunii (adică o medie extremă până la mijloc), probabilitatea sa este pur și simplu 0,5.
Prin urmare, probabilitatea corectă ca o persoană să fie de 70 inci sau mai puțin = 0,24857 + 0,5 = 0 74857 = 74,857%
Grafic (prin calcularea ariei), acestea sunt cele două regiuni însumate care reprezintă soluția:
- Care este probabilitatea ca o persoană să fie de 75 inci sau mai mare?