DUOMENŲ ATRANKA IR ANALIZĖ
3. Kvotinė imtis sudaroma atsižvelgiant į visos populiacijos sanda-
6.3. aprašomosios statistikos taikymo pagrindai
6.3.1. bendra aprašomosios statistikos charakteristika Surinkti duomenys gali apibūdinti visą populiaciją arba tik jos dalį, gautą atlikus eksperimentą. Kiekvienu atveju šiuos duomenis reikia išdės-tyti analizei patogiu būdu. Turimi duomenys gali būti pateikti kaip lentelė, grafiškai, o iš jų galima išskirti svarbią informaciją, apibūdinančią tų duo-menų kintamuosius ir pan.
aprašant turimus duomenis, verta pradėti nuo jų grupavimo.
Tarkime, turime kokio nors kintamojo reikšmių aibę. Išdėstę šio kinta-mojo reikšmes nemažėjimo tvarka, sudarome vadinamąją variacinę eilutę. Jei tyrėją domina keli kintamieji, jie gali būti surašyti į specialią matricą,
195 6. Duomenų atranka ir analizė
kurios kiekviena eilutė atitinka vieno kintamojo reikšmes. Tokia eilutė va-dinama realizacija.
Kiekvienoje tokioje eilutėje kai kurios kintamojo reikšmės gali kar-totis, todėl tikslinga apskaičiuoti kiekvienos kintamojo reikšmės dažnius (kiek kartų konkreti reikšmė pasikartoja statistinėje eilutėje, ir paženklinti šį skaičių kokiu nors simboliu, pvz., fk;čia indeksask – skirtingos reikšmės
statistinėje eilutėje ir kintamojo reikšmių santykiniai dažniai (konkrečios reikšmės dalis visų reikšmių statistinėje eilutėje – f / n, čia n – bendras kintamojo reikšmių skaičius). Taip pat verta apskaičiuoti vadinamuosius
santykinai sukauptuosius dažnius, sudedant visų kintamojo reikšmių
san-tykinius dažnius, pradedant nuo mažiausių reikšmių ir įskaitant vertina-mąją kintamojo reikšmę, pavyzdžiui, skirtingos kintamojo reikšmės x3 su-kauptasis santykinis dažnis yra f1 + f2+ f3 / n.
Tokius dažnius tikslinga skaičiuoti, jei kintamasis turi palyginti ne-daug skirtingų reikšmių. šiuo atveju visus duomenis galima surašyti į spe-cialią 18 lentelę.
18 lentelė. Santykiniai dažniai
Kintamojo reikšmė x1 x2 x3 … xk Santykinis dažnis f1 / n f2 / n f3 / n … fk / n Sukaup-tasis santykinis dažnis f1 / n (f1 + f2) / n (f1 + f2+ f3) / n … (f1 + f2 + ... + fk / n = 1
Santykinių dažnių lentelė faktiškai yra šio kintamojo empirinė pasis-kirstymo eilutė, o sukauptasis santykinis dažnis – jo pasispasis-kirstymo funk-cija.
Santykinių dažnių lentelę galima pertvarkyti pagal surinktos infor-macijos pobūdį. Tarkime, apklausos būdu norima nustatyti 105 studentų vieno kurso požiūrį į konkretaus politiko veiklą. Jiems pateiktoje anketoje yra penki atsakymo variantai: ypač teigiamai, teigiamai, neturiu
nuomo-nės, neigiamai ir ypač neigiamai. Tarkime, surinkus užpildytas anketas paaiškėjo, kad penki iš jų nepanoro dalyvauti apklausoje. Gauti atsakymai pateikti 19 lentelėje.
19 lentelė. Politiko veiklos vertinimo duomenys
Kintamojo
reikšmė paprastasis kaupiamasis paprastasis kaupiamasisDažnis Santykinis dažnis
ypač teigiamai 10 10 0,1 0,1
Teigiamai 20 30 0,2 0,3
Neturiu nuomonės 10 40 0,1 0,4
Neigiamai 20 60 0,2 0,6
ypač neigiamai 40 100 0,4 1,0
Pastaba. Iš viso iš 105 studentų į anketos klausimus atsakė 100, t. y. 95,2 proc. studentų, trūko 4,8 proc. atsakymų.
apžvelgę šios lentelės duomenis matome, kad 60 proc. studentų ver-tina šį politiką neigiamai ir tik 30 proc. – teigiamai. Vadinasi, kaupiamieji vertinimai yra ganėtinai informatyvūs. Palyginus skirtingų dažnių reikš-mes tarpusavyje, galima daryti svarbias išvadas, pavyzdžiui: teigiamai vertinančių šio politiko veiklą studentų yra du kartus daugiau negu ypač teigiamai, ypač neigiamai – taip pat dvigubai daugiau negu neigiamai.
Jeigu koks nors požymis apibūdinamas tolydžiuoju kintamuoju, san-tykinių dažnių lentelė smarkiai išsiplečia, nes sutampančių reikšmių gali iš viso nebūti. Išeitis yra – duomenis reikia suskirstyti tam tikrais vienodo pločio intervalais, parinkus jų skaičių, kiekvieno intervalo plotį ir nusta-čius intervalų ribas. Statistikos specialistai rekomenduoja rinktis nuo 5 iki 15 intervalų.
bet koks duomenų grupavimas susijęs su informacijos praradimu – kuo mažiau intervalų pasirenkama, tuo daugiau informacijos prarandama. Todėl reikia ieškoti priimtino jų skaičiaus, nes pasirinkus jų daug duome-nų analizė tampa itin sudėtinga. Jei duomeduome-nų reikšmės yra išsidėsčiusios beveik simetriškai, intervalų skaičių galima pasirinkti taikant žinomą Ster-džeso formulę:
197 6. Duomenų atranka ir analizė
k = 1 + 3,322 lg n,
čia: k – intervalų skaičius, n – imties dydis.
bendri grupavimo intervalų reikalavimai yra šie: jie turi būti vienodo ilgio, nesikirsti tarpusavyje, neturėti tarpų tarp šių intervalų ir kiekvieną kintamojo reikšmę priskirti tik vienam intervalui. Tarpus tarp intervalų pa-šalinti nesunku – užtenka tų tarpų ilgį padalyti iš dviejų ir prie kiekvieno intervalo krašto pridėti pusę tarpo. Žinoma ir kitokių, čia nenagrinėjamų, tarpų panaikinimo būdų.
Intervalų apskaičiavimo ir duomenų grupavimo pavyzdys pateiktas 3 priede (1 uždavinys, 1 ir 2 lentelės).
Norint, kad viena kuri nors kintamojo reikšmė nebūtų priskirta dviems intervalams, reikia nustatant jų ribas pasirinkti atvirus intervalus iš vienos pusės ir uždarus iš kitos (atvirus iš kairės ir uždarus iš dešinės arba atvirkš-čiai). Patekę į kurį nors intervalą duomenys priskiriami prie jo vidurio. atlikus šiuos reikalavimus, tolydieji kintamieji, kaip ir diskretūs, gali būti surašyti į lentelę arba pavaizduoti grafiškai.
Grafiniai duomenų pateikimo būdai yra ypač svarbūs, nes tuomet labai aiškiai matyti įvairios duomenų savybės. šiuo tikslu gali būti naudojami dažnių ir santykinių dažnių daugiakampiai, sukauptųjų ar sukauptųjų san-tykinių dažnių laužtės, histogramos ir kiti informacijos pateikimo būdai.
Surinktiems duomenims apibūdinti naudojamos vadinamosios skai-tinės atsitiktinio dydžio charakteristikos. Jos gali būti suskirstytos į dvi grupes: apibūdinančios jų padėtį ir duomenų sklaidą.
6.3.2. Duomenų padėties charakteristikos
Pagrindinės duomenų padėties charakteristikos yra vidurkis, moda ir mediana.
Vidurkis apibūdina atsitiktinio dydžio reikšmių susitelkimo centrą. Kitaip tariant, vidurkis yra atsitiktinio dydžio reikšmė, apie kurią susitel-kusios visos kitos reikšmės. Vidurkis nėra atsitiktinis dydis – jis visiškai determinuotas. Tačiau, naudojantis konkrečios imties, kuri yra tik populia-cijos dalis, duomenimis, apskaičiuojamas vidurkio įvertis, ir šis įvertis yra atsitiktinis dydis. Norint atskirti šiuos du dydžius, naudojamasi specialiais
simboliais. šiame vadovėlyje imties vidurkis žymimas raide , o populia-cijos vidurkis – m. Diskrečiųjų ir grupuotųjų tolydžiųjų kintamųjų atveju jie apskaičiuojami pagal šias formules:
, (6.1)
, (6.2)
čia: n – imties dydis, N – populiacijos dydis; xi – kintamojo su numeriu
i reikšmė.
Grupuotiesiems duomenų kintamiesiems, skaičiuojant vidurkį, pasi-renkamos kiekvieno intervalo vidurinių taškų reikšmės (žr. 3 priedo 1 už-davinį, 1.1 pastraipą).
Kita svarbi kokio nors kintamojo padėties charakteristika yra moda. Moda (Mo) – tai dažniausiai besikartojanti kintamojo reikšmė. šią skaitinę charakteristiką galima apskaičiuoti ir kokybinių kintamųjų atveju. Kinta-masis gali neturėti modos, jei visos jo reikšmės pasikartoja vienodai; turėti kelias modas, jei atitinkamos negretimos kintamojo reikšmės pasikartoja vienodu dažniu; gali turėti vieną modą kitais atvejais.
Moda apskaičiuojama laikantis šių taisyklių. Pirma, jei variacinėje ei-lutėje yra vienas, didesnis už visus kitus kokios nors reikšmės dažnis, tai ji yra šio kintamojo moda, ir ji yra lygi tos reikšmės dydžiui. antra, jei kelių gretimų variacinės eilutės reikšmių dažnis yra vienodas ir didesnis negu bet kurių kitų reikšmių dažnis, tai moda yra šių reikšmių vidurkis. Pirmu ir antru atveju sakoma, kad kintamasis yra unimodinis arba turintis vieną modą. Trečia, jeigu dvi ar daugiau negretimų variacinės eilutės reikšmių pasikartoja vienodu dažniu, tai yra dvi arba daugiau negu dvi modos, ir tokie kintamieji vadinami bimodiniais arba multimodiniais. Ketvirta, gru-puotųjų kintamųjų moda gali būti laikoma intervalo, apimančio daugiausia reikšmių, vidurine reikšme.
Grupuotųjų duomenų modos apskaičiavimo pavyzdys pateiktas 3 priedo 1 uždavinyje, 1.2 pastraipoje.
199 6. Duomenų atranka ir analizė
Jei reikšmių skaičius yra nelyginis, tai mediana yra lygi vidurinei varia cinės eilutės reikšmei. Jeigu variacinės eilutės reikšmių skaičius yra lyginis, tai pasirenkamos dvi viduriniosios jos reikšmės ir apskaičiuojamas jų vidurkis. šis vidurkis ir yra medianos reikšmė. Nagrinėjant grupuotuo-sius duomenis, lengviausia apskaičiuoti medianą, jei visi esantieji kuriame nors intervale duomenys prilyginami vidurinei to intervalo reikšmei. To-liau daroma taip pat, kaip aprašyta šioje pastraipoje. Grupuotųjų duomenų apskaičiavimo pavyzdys pateiktas 3 priedo 1 uždavinyje, 1.3 pastraipoje.
Mediana turi svarbią savybę – jos reikšmė nepriklauso nuo labai išsi-skiriančių variacinės eilutės reikšmių, o tos išsiskiriančios reikšmės suke-lia vidurkio pokyčius – tai šiek tiek iškreipia duomenų esmę.
Duomenų padėtį, iš dalies ir jų sklaidą, apibūdina ir vadinamieji
kvan-tiliai. Jie suskirsto variacinės eilutės duomenis į procentines dalis.
Kiek-viena tokia dalis vadinama kvantiliu, o pagal variacinės eilutės dalių dydį vartojamos šios sąvokos: kvartilis, jei pasirinktuose intervaluose yra 25 proc. visų kintamojo reikšmių, decilis – jei 10 proc. ir procentilis – jei 1 proc. visų reikšmių.
Tarkime, kintamojo reikšmė, atitinkanti pasirinktos dalies duomenų skaičiaus buvimą kokiame nors intervale, yra xq; čia: indeksas q – imties skaidymo dalis, pavyzdžiui, jei visi duomenys skaidomi į dvi dalis, tai
q = 0,5, o lygi variacinės eilutės medianai, t. y. = Me.
Jeigu variacinės eilutės duomenis norima suskirstyti į keturias dalis, tai indeksas q turi tris reikšmes: q1 = 0,25; q2 = 0,5; ir q3 = 0,75, kurios
su-skirsto variacinę eilutę į vadinamuosius kvartilius. apskaičiuoti ir nesunku. Reikia jau aprašytu būdu nustatyti paskirstytas į dvi dalis variaci-nių eilučių medianas – pirmos dalies mediana yra , antros – reikšmė.
Jei variacinė eilutė dalijama į 100 ar 10 dalių, tai kiekviena iš jų vadi-nama procentiliu arba deciliu. Todėl teisinga sakyti, kad variacinės eilutės mediana yra 50 proc. kvantilis, kad q1 yra 25 proc. kvantilis, o q3 – 75 proc. kvantilis. Tolydiesiems atsitiktiniams dydžiams pagal pasiskirstymo dėsnį kvartiliams ar procentiliams apskaičiuoti yra sudarytos specialios lente-lės. Norint apskaičiuoti kokius nors imties kvantilius, galima pasinaudoti sukauptų dažnių laužte. Toks kvantilių apskaičiavimo būdas pateiktas 3 priedo 1 uždavinyje, 1.4 pastraipoje.