Centrinė tendencija prieš sklaidą
Aprašomojoje ir išvadinėje statistikoje duomenų rinkiniui, atitinkančiam jo centrinį polinkį, sklaidą ir paslankumą, apibūdinti naudojami keli indeksai: trys svarbiausios savybės, nulemiančios santykinę duomenų rinkinio pasiskirstymo formą..
Kokia yra centrinė tendencija?
Centrinė tendencija nurodo ir nustato vertybių pasiskirstymo centrą. Vidurkis, būdas ir mediana yra dažniausiai naudojami indeksai apibūdinant duomenų rinkinio centrinę tendenciją. Jei duomenų rinkinys yra simetriškas, tada ir mediana, ir duomenų rinkinio vidurkis sutampa.
Atsižvelgiant į duomenų rinkinį, vidurkis apskaičiuojamas iš visų duomenų verčių sumos ir padalijant ją iš duomenų skaičiaus. Pavyzdžiui, matuojamas 10 žmonių svoris (kilogramais): 70, 62, 65, 72, 80, 70, 63, 72, 77 ir 79. Tada vidutinis dešimties žmonių svoris (kilogramais) gali būti apskaičiuojamas taip. Svorių suma yra 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79 = 710. Vidutinis = (suma) / (duomenų skaičius) = 710/10 = 71 (kilogramais). Suprantama, kad nuokrypiai (duomenų taškai, kurie nukrypsta nuo įprastos tendencijos) linkę paveikti vidurkį. Taigi, esant ribinėms vertėms, vien reikšmė neduos teisingo vaizdo apie duomenų rinkinio centrą.
Mediana yra duomenų taškas, rastas tiksliai duomenų rinkinio viduryje. Vienas iš būdų apskaičiuoti mediana yra duomenų taškų išdėstymas didėjančia tvarka, tada duomenų taškas nustatomas viduryje. Pvz., Jei kartą užsakytas ankstesnis duomenų rinkinys atrodo, 62, 63, 65, 70, 70, 72, 72, 77, 79, 80. Todėl (70 + 72) / 2 = 71 yra viduryje. Iš to matyti, kad mediana neprivalo būti duomenų rinkinyje. Vidutiniams rodikliams įtakos nedaro. Taigi, mediana pasitarnaus kaip geresnis centrinio polinkio matas esant pašalinėms vertėms.
Režimas yra dažniausiai pasitaikanti reikšmė duomenų rinkinyje. Ankstesniame pavyzdyje vertė 70 ir 72 yra du kartus, taigi, abu režimai. Tai rodo, kad kai kuriuose paskirstymuose yra daugiau nei viena modalinė vertė. Jei yra tik vienas režimas, sakoma, kad duomenų rinkinys yra nevienalytis, tokiu atveju duomenų rinkinys yra dvilypis.
Kas yra dispersija?
Dispersija - tai duomenų apie paskirstymo centrą sklidimo suma. Diapazonas ir standartinis nuokrypis yra dažniausiai naudojami dispersijos matai.
Diapazonas yra tiesiog didžiausia vertė atėmus žemiausią vertę. Ankstesniame pavyzdyje didžiausia vertė yra 80, o mažiausia - 62, taigi diapazonas yra 80–62 = 18. Tačiau diapazonas nepateikia pakankamo vaizdo apie dispersiją.
Norint apskaičiuoti standartinį nuokrypį, pirmiausia apskaičiuojami duomenų verčių nuokrypiai nuo vidurkio. Šaknies kvadratinis nuokrypių vidurkis vadinamas standartiniu nuokrypiu. Ankstesniame pavyzdyje atitinkami nuokrypiai nuo vidurkio yra (70 - 71) = -1, (62 - 71) = -9, (65 - 71) = -6, (72 - 71) = 1, (80 - 71) = 9, (70 - 71) = -1, (63 - 71) = -8, (72 - 71) = 1, (77 - 71) = 6 ir (79 - 71) = 8. Suma nuokrypio kvadratai yra (-1)2 + (-9)2 + (-6)2 + 12 + 92 + (-1)2 + (-8)2 + 12 + 62 + 82 = 366. Standartinis nuokrypis yra √ (366/10) = 6,05 (kilogramais). Jei duomenų rinkinys nėra labai iškreiptas, iš to galima daryti išvadą, kad didžioji dalis duomenų yra intervale 71 ± 6.05, ir iš tikrųjų taip yra šiame konkrečiame pavyzdyje.
Kuo skiriasi centrinis polinkis ir sklaida? • Centrinė tendencija nurodo ir nustato vertybių pasiskirstymo centrą • Sklaida yra duomenų pasiskirstymo apie duomenų rinkinio centrą dydis.
|