Skirtumas tarp standartinio nuokrypio ir standartinės klaidos

Įvadas

Standartinis Dnuokrypis (SD) ir Standardinis Esiaubas (SE) iš pažiūros panašios terminijos; tačiau jie konceptualiai yra tokie įvairūs, kad statistikos literatūroje naudojami beveik pakaitomis. Prie abiejų terminų paprastai pridedamas pliuso-minuso simbolis (+/-), kuris rodo, kad jie apibūdina simetrinę reikšmę arba reiškia reikšmių diapazoną. Visada abu žodžiai pateikiami išmatuotų verčių aibės vidurkiu (vidurkiu).

Įdomu tai, kad SE neturi nieko bendra su standartais, klaidomis ar mokslinių duomenų perdavimu.

Išsamiai išnagrinėjus SD ir SE kilmę bei paaiškinimus paaiškės, kodėl profesionalūs statistikai ir tie, kurie juo naudojasi atsargiai, linkę klysti.

Standartinis nuokrypis (SD)

SD yra aprašomasis statistika, apibūdinanti pasiskirstymo plitimą. Kaip metrika, ji naudinga, kai duomenys paprastai paskirstomi. Tačiau jis yra mažiau naudingas, kai duomenys yra labai neryškūs arba dvimačiai, nes jie nelabai apibūdina paskirstymo formą. Paprastai pranešdami apie imties charakteristikas naudojame SD, nes ketiname apibūdinti kiek skiriasi duomenys apie vidurkį. Kiti naudingi statistiniai duomenys, apibūdinantys duomenų pasiskirstymą, yra tarpkvartalinis intervalas, 25-asis ir 75-asis procentiliai bei duomenų diapazonas..

1 paveikslas. SD yra duomenų sklaidos matas. Kai duomenys yra iš normaliai paskirstyto paskirstymo pavyzdžio, tada tikimasi, kad du trečdaliai duomenų bus 1 standartinio vidurkio nuokrypis..

Variacija yra a aprašomasis statistika, ir ji apibrėžiama kaip standartinio nuokrypio kvadratas. Apibūdinant rezultatus, paprastai apie tai neteikiama, tačiau tai yra labiau matematiškai sekama formulė (a.k.a. kvadratinių nuokrypių suma) ir vaidina svarbų vaidmenį apskaičiuojant statistiką.

Pavyzdžiui, jei turime dvi statistikas P Ir Q su žinomomis variacijomis var(P) Ir var(Q), tada sumos dispersija P + Q yra lygus dispersijų sumai: var(P) +var(Q). Dabar akivaizdu, kodėl statistikai mėgsta kalbėti apie dispersijas.

Tačiau standartiniai nuokrypiai turi svarbią sklaidos prasmę, ypač kai duomenys paprastai paskirstomi: Intervalo vidurkis +/ - 1 SD galima tikėtis užfiksuoti 2/3 mėginio, o intervalo vidurkis +- 2 SD galima tikėtis, kad pavyks surinkti 95% mėginio.

SD parodo, kiek skiriasi atsakymai į klausimą ar „skiriasi“ nuo vidurkio. SD pasakoja tyrėjui, kaip išsiskirsto atsakymai - ar jie susitelkę ties vidurkiu, ar išsisklaidę toli ir plačiai? Ar visi jūsų respondentai įvertino jūsų produktą skalės viduryje, ar kai kurie tam pritarė, o kiti nepritarė?

Apsvarstykite eksperimentą, kai respondentų prašoma įvertinti produktą pagal atributų seriją 5 balų skalėje. Dešimties respondentų grupės (pažymėtos „A“ per „J“ žemiau) vidurkis už „gerą pinigų vertę“ buvo 3,2, kai SD buvo 0,4, o „produkto patikimumas“ buvo 3,4, kai SD buvo 2,1..

Iš pirmo žvilgsnio (žiūrint tik į priemones) atrodytų, kad patikimumas buvo įvertintas aukščiau vertės. Tačiau didesnis patikimumo SD gali parodyti (kaip parodyta toliau pateiktame pasiskirstyme), kad atsakymai buvo labai poliarizuoti, kai dauguma respondentų neturėjo patikimumo problemų (įvertino atributą „5“), tačiau mažesnis, bet svarbus respondentų segmentas turėjo patikimumo problema ir įvertino atributą „1“. Pažvelgus vien į prasmę, pasakojama tik dalis istorijos, tačiau dažniausiai tai ir yra tyrėjų dėmesys. Svarbu apsvarstyti atsakymų pasiskirstymą, o SD yra vertinga aprašomoji priemonė.

Atsakovas Gera pinigų vertė Produkto patikimumas
A 3 1
B 3 1
C 3 1
D 3 1
E 4 5
F 4 5
G 3 5
H 3 5
3 5
J 3 5
Reiškia 3.2 3.4
Std. Dev. 0,4 2.1

Pirmasis tyrimas: Respondentai vertina produktą 5 balų skalėje

Du labai skirtingi atsakymų pasiskirstymai į 5 balų skalę gali duoti tą patį vidurkį. Apsvarstykite šį pavyzdį, kuriame pateikiamos dviejų skirtingų įvertinimų atsako vertės.

Pirmajame pavyzdyje (įvertinimas „A“) SD yra lygus nuliui, nes VISI atsakymai buvo tiksliai vidutinė vertė. Individualūs atsakymai nė kiek nesiskyrė nuo vidurkio.

„B“ reitinge, nors grupės vidurkis yra toks pats (3.0) kaip ir pirmojo paskirstymo, standartinis nuokrypis yra didesnis. Standartinis nuokrypis 1,15 rodo, kad individualūs atsakymai, vidutiniškai *, buvo šiek tiek daugiau nei 1 tašku nuo vidurkio.

Atsakovas Įvertinimas „A“ Įvertinimas „B“
A 3 1
B 3 2
C 3 2
D 3 3
E 3 3
F 3 3
G 3 3
H 3 4
3 4
J 3 5
Reiškia 3.0 3.0
Std. Dev. 0,00 1.15

Antrasis tyrimas: Respondentai vertina produktą 5 balų skalėje

Kitas būdas pažvelgti į SD yra nubraižyti pasiskirstymą kaip atsakymų histogramą. Pasiskirstymas su maža SD būtų rodoma kaip aukšta siauros formos forma, o didelis SD būtų žymimas platesne forma.

SD paprastai nenurodo „teisingas ar neteisingas“ ar „geresnis ar blogesnis“ - žemesnis SD nebūtinai yra labiau pageidautinas. Ji naudojama tik kaip aprašomoji statistika. Jis apibūdina pasiskirstymą vidurkio atžvilgiu.

Ttechninis atsisakymas, susijęs su SD

Galvojimas apie SD kaip „vidutinį nuokrypį“ yra puikus būdas konceptualiai suprasti jo prasmę. Tačiau jis iš tikrųjų nėra apskaičiuojamas kaip vidurkis (jei būtų, mes jį vadintume „vidutiniu nuokrypiu“). Vietoj to, tai yra „standartizuotas“, gana sudėtingas vertės apskaičiavimo metodas naudojant kvadratų sumą.

Praktiniais tikslais skaičiavimas nėra svarbus. Daugelis lentelių sudarymo programų, skaičiuoklių ar kitų duomenų tvarkymo priemonių apskaičiuos SD jums. Svarbiau yra suprasti, ką perteikia statistika.

Standartinė klaida

Standartinė klaida yra įtaigus statistika, naudojama palyginant imčių vidurkius (vidurkius) tarp populiacijų. Tai yra priemonė tikslumas imties vidurkio. Imties vidurkis yra statistika, gauta iš duomenų, turinčių bazinį pasiskirstymą. Negalime to vizualizuoti kaip duomenų, nes mes atlikome vieną eksperimentą ir turime tik vieną vertę. Statistikos teorija sako, kad imties vidurkis (dideliam „pakankamai“ mėginiui ir esant kelioms reguliarumo sąlygoms) pasiskirsto maždaug normaliai. Standartinis šio normaliojo paskirstymo nuokrypis yra tai, ką mes vadiname standartine klaida.

2 pav. Pasiskirstymas apačioje reprenurodo duomenų pasiskirstymą, o pasiskirstymas viršuje yra teorinis imties vidurkio pasiskirstymas. 20 SD yra duomenų pasiskirstymo matas, tuo tarpu 5 iš 5 yra neapibrėžties aplink imties vidurkį matas..

Kai norime palyginti dviejų mėginių A ir B gydymo eksperimentų rezultatų vidurkius, turime įvertinti, kaip tiksliai išmatuojome vidutines.

Tiesą sakant, mus domina, kaip tiksliai išmatuojome skirtumą tarp dviejų priemonių. Mes tai vadiname standartine skirtumo paklaida. Jūs negalite nustebti sužinoję, kad imties priemonių skirtumų standartinė paklaida yra standartinių priemonių klaidų funkcija:

Dabar, kai jūs supratote, kad standartinė vidurkio paklaida (SE) ir standartinis pasiskirstymo nuokrypis (SD) yra du skirtingi žvėrys, jums gali būti įdomu, kaip jie visų pirma supainiojo. Nors jie skiriasi konceptualiai, jie matematiškai turi paprastą santykį:

,kur n yra duomenų taškų skaičius.

Atkreipkite dėmesį, kad standartinė paklaida priklauso nuo dviejų komponentų: mėginio standartinio nuokrypio ir imties dydžio n. Tai daro intuityvią prasmę: kuo didesnis imties standartinis nuokrypis, tuo mažiau tikslūs galime būti tikrosios vidutinės vertės įvertinimai.

Be to, kuo didesnis imties dydis, tuo daugiau informacijos turime apie populiaciją ir tuo tiksliau galime įvertinti tikrąjį vidurkį.

SE reiškia vidurkio patikimumą. Mažas SE rodo, kad imties vidurkis tiksliau atspindi faktinį gyventojų vidurkį. Didesnis imties dydis paprastai lemia mažesnę SE (o SD nėra tiesiogiai paveiktas imties dydžio).

Daugelis apklausos tyrimų apima imties iš gyventojų sudarymą. Tada darome išvadas apie populiaciją iš to mėginio rezultatų. Jei buvo paimtas antras mėginys, rezultatai greičiausiai tiksliai neatitiks pirmojo mėginio. Jei vidutinė reitingo atributo vertė buvo 3,2 vienai imčiai, ji gali būti 3,4 kitai tokio paties dydžio imčiai. Jei iš mūsų populiacijos imtume begalinį skaičių (vienodo dydžio) mėginių, galėtume parodyti stebimas vidurkius kaip pasiskirstymą. Tada galėtume apskaičiuoti visų imčių vidurkį. Šis vidurkis prilygtų tikrajam gyventojų skaičiaus vidurkiui. Taip pat galime apskaičiuoti imties priemonių paskirstymo SD. Šio mėginio vidurkio pasiskirstymo SD yra kiekvieno atskiro mėginio vidurkio SE.

Taigi, mes turime svarbiausią pastebėjimą: SE yra gyventojų vidurkio SD.

Pavyzdys Reiškia
1-asis 3.2
2-asis 3.4
3-ioji 3.3
4-asis 3.2
5-asis 3.1
… . … .
… . … .
… . … .
… . … .
… . … .
Reiškia 3.3
Std. Dev. 0,13

Lentelė, iliustruojanti SD ir SE santykį

Dabar akivaizdu, kad jei šio paskirstymo SD padeda mums suprasti, koks atstumo vidurkis yra nuo tikrojo populiacijos vidurkio, tada galime naudoti tai norėdami suprasti, koks tikslus yra bet kurio atskiro imties vidurkis, palyginti su tikruoju vidurkiu. Tokia yra SE esmė.

Tiesą sakant, mes iš savo populiacijos paėmėme tik vieną imtį, tačiau šį rezultatą galime naudoti norėdami įvertinti mūsų stebimos imties vidurkio patikimumą..

Tiesą sakant, SE mums sako, kad galime būti 95% įsitikinę, kad mūsų stebimas imties vidurkis yra apytiksliai plius arba minus 2 (iš tikrųjų 1,96)..

Žemiau esančioje lentelėje parodytas atsakymų pasiskirstymas iš pirmojo (ir vienintelio) mūsų tyrimui naudojamo pavyzdžio. 0,13 SE, palyginti nedidelė, rodo, kad mūsų vidurkis yra palyginti artimas tikrujam visų gyventojų vidurkiui. Mūsų vidurkio paklaida (esant 95% patikimumui) yra (apytiksliai) dvigubai didesnė už šią vertę (+/– 0,26), tai rodo, kad tikrasis vidurkis greičiausiai yra nuo 2,94 iki 3,46.

Atsakovas Įvertinimas
A 3
B 3
C 3
D 3
E 4
F 4
G 3
H 3
3
J 3
Reiškia 3.2
Std. Err 0,13

Santrauka

Daugelis tyrėjų nesuvokia skirtumo tarp standartinio nuokrypio ir standartinės klaidos, net jei jie dažniausiai įtraukiami į duomenų analizę. Nors faktiniai standartinio nuokrypio ir standartinės klaidos skaičiavimai atrodo labai panašūs, jie atspindi dvi labai skirtingas, bet viena kitą papildančias priemones. SD mums pasakoja apie mūsų pasiskirstymo formą, kaip arti atskirų duomenų vertės yra nuo vidutinės vertės. SE mums sako, koks artimas mūsų imties vidurkiui yra tikrasis visų gyventojų vidurkis. Kartu jie padeda susidaryti išsamesnį vaizdą, nei mums gali pasakyti tik vidurkis.