Urejanje podatkov

Urejanje podatkov

Avtor: E-um (vsebinsko), Skupina NAUK (tehnično)

Uvod

Kratek povztetek:

Množico statističnih podatkov pred nadaljnjo obravnavo uredimo.

Pri prikazu dogajanja si pomagamo z absolutnimi in relativnimi frekvencami ter kumulativami. Pogosto podatke zaradi preglednosti razdelimo v razrede.


Da ne bi govorili samo na splošno, bomo glavne poante o urejanju podatkov spoznali na konkretnem primeru.

Primer

Zaposlimo najboljše

Vladna agencija želi zaposliti novih uslužbencev. Na objavljeni razpis se je prijavilo ogromno kandidatov, od katerih jih je zadoščalo vsem razpisnim pogojem. Vodja kadrovske službe je zanje pripravil vprašalnik in test, ki naj bi pomagala pri odločitvi, katere od kandidatov zaposliti. Odgovore se je točkovalo; zbrati je bilo možno maksimalno točk.

Populacija, s katero se ukvarjamo, je množica kandidatov za službo, ki zadoščajo razpisnim pogojem. Statistična spremenljivka je število točk, ki jih vsak kandidat prejel na podlagi vprašalnika in testa.

Pred sabo imamo odgovore kandidatov, ki so urejeni po abecednem redu priimkov. Iz njih izluščimo naslednje vrednosti statistične spremenljivke:

162114714912171521232019181625
22182423182116151121131718142118
4161215111721191816241417192315

V nadaljevanju bomo podatke uredili tako, da bodo bolj pregledni.

Za začetek jih uredimo po velikosti od najmanjšega do največjega:

47911111212131414141415151515
161616161617171717181818181819
191920202121212121222323232425

O frekvencah

Podatke bomo uredili v spodnjo tabelo. Poglejmo si, kaj pomenijo števila v tej tabeli.

V prvem stolpcu je število doseženih točk . V drugem je število kandidatov, ki je doseglo to število točk . To število sporoča, kolikokrat je naša statistična spremenljivka zavzela vrednost . Temu rečemo tudi absolutna frekvenca vrednosti .

V tretjem stolpcu so relativne frekvence, to je relativni delež kandidatov, ki so dosegli posamezno število točk. Tako je npr. točk doseglo kandidatov od , kar pomeni, da je relativni delež enak . Včasih so ti deleži podani tudi v procentih. V tem primeru bi pri imeli delež.

V četrtem in petem stolpcu so kumulative (vsote) absolutnih in relativnih frekvenc. Število pri vrednosti npr. pomeni število kandidatov, ki so zbrali manj kot točk.

V petem stolpcu je relativni delež kandidatov, ki so dosegli manj kot določeno število točk. Število pri vrednosti spremenljivke pomeni, da je kandidatov doseglo manj kot točk.

Izpolni mankajoča polja

Večina podatkov v tabeli je že vpisanih; v prazna polja vpiši manjkajoče podatke.

št. točkabs. fr.rel. fr.kumulativa abs. fr.kumulativa rel. fr.
410,020800,0000
710,020810,0208
910,020820,0417
1120,041730,0625
12
1310,020870,1458
1440,083380,1667
1540,0833120,2500
1650,1042160,3333
1740,0833210,4375
18
1930,0625310,6458
2020,417340,7083
2150,1042360,7500
2210,0208410,8542
23
2420,0417450,9375
2510,0208460,9583

Preveri Prikaži odgovore

Pravilno

Naprej

Zmotil si se nekje v 7 vrstici tabele.

Zmotil si se nekje v 13 vrstici tabele.

Zmotil si se nekje v 18 vrstici tabele.

Zmotil si se nekje v 7 in nekje v 13 vrstici tabele.

Zmotil si se nekje v 7 in nekje v 18 vrstici tabele.

Zmotil si se nekje v 13 in nekje v 18 vrstici tabele.

Zmotil si se v vseh treh vrsticah.

Odgovor

št. točkabs. fr.rel. fr.kumulativa abs. fr.kumulativa rel. fr.
410,020800,0000
710,020810,0208
910,020820,0417
1120,041730,0625
1220,041750,1042
1310,020870,1458
1440,083380,1667
1540,0833120,2500
1650,1042160,3333
1740,0833210,4375
1860,1250250,5208
1930,0625310,6458
2020,417340,7083
2150,1042360,7500
2210,0208410,8542
2330,0625420,8750
2420,0417450,9375
2510,0208460,9583

Kateri podatek sporočiti?

Kandidat ob oddaji vprašalnika in testa ve le to, da bo delodajalec zaposlil približno kandidatov, ki se potegujejo za delovno mesto. Ne ve niti, kako je potekalo točkovanje in koliko je bilo vseh točk na testu, niti, koliko je vseh kandidatov.

Denimo, da kandidatu, ki je na testu pisal točk, lahko sporočimo samo en podatek iz zgornje tabele. Kateri od naštetih podatkov bi mu največ povedal o njegovih možnostih za zaposlitev? (Če nisi prepričan, kaj vsak od naštetih podatkov pomeni, boš z izbiro opcije izvedel osnovne podatke o ustreznem številu.)

Ugotovitev

Pravkar smo spoznali, da kumulativa relativne frekvence da dovolj dober uvid v informacijo, kje primerjalno z drugimi se nahaja naš rezultat. Zato na mnogih univerzah po svetu študentom kot rezultat izpita poleg doseženega števila točk sporočijo tudi procent študentov, ki so pisali slabše ali enako. Tako bi npr. kandidat z doseženimi točkami na zgornjem testu dobil informacijo:

točk

To bi mu povedalo, da je njegov rezultat zelo soliden, saj je le kandidatov pisalo bolje.

Zakaj smo zgoraj zapisali in ne


Zapomnimo si:

Denimo, da imamo populacijo elementov, na kateri naša slučajna spremenljivka lahko zavzame različne vrednosti. Denimo, da vrednost zavzame krat. Potem številu rečemo absolutna frekvenca vrednosti . Številu rečemo relativna frekvenca vrednosti .

Podatek pomeni, da so trije kandidati pisali 19 točk. To kandidatu o njegovih možnostih ne pove kaj dosti.

Podatek pomeni, da je kandidatov pisalo enako uspešno kot on. To kandidatu o njegovih možnostih ne pove kaj dosti.

Podatek pomeni, da je bilo pri točkovanju 31 kandidatov slabših od njega. Če bi vedel, koliko konkurentov ima, bi mu ta podatek pomagal, tako pa mu ne.

Podatek pomeni, da je v točkovanju zbral točk. Ker kandidat ne ve, koliko je bilo vseh točk in kakšni so rezultati konkurentov, mu podatek ne pove kaj dosti.

Podatek pomeni, da je kandidatov pisalo slabše od njega. To pomeni, da njegov rezultat sodi v zgornjih vseh kandidatov. Ker bodo zaposlili kandidatov, ima kar dobre možnosti.

Zakaj smo zgoraj zapisali in ne

Ker je kandidatov pisalo slabše od našega kandidata. Mi pa mu sporočamo, kolikšen delež je pisal slabše ali enako.

Preverimo razumevanje absolutnih in relativnih frekvenc

Imamo populacijo, ki jo sestavlja statističnih enot. Statistična spremenljivka lahko zavzame neke vrednosti . Če seštejemo absolutne frekvence vseh nastopajočih vrednosti , dobimo:

Če v zgoraj opisanih razmerah seštejemo vse relativne frekvence , dobimo:

Preveri

Ni v redu.

Na drugo vprašanje si odgovoril napačno.

Drži pa: Če seštejemo, pri kolikih statističnih enotah je nastopila vska od vrednosti, dobimo število vseh statističnih enot, to je N.

Na prvo vprašanje si odgovoril napačno.

Drži pa: Vsota vseh relativnih deležev je enaka . Če bi bili ti deleži podani v procentih, bi seveda dobili (torej vsota vseh deležev je ).

Točno. Če seštejemo, pri kolikih statističnih enotah je nastopila vska od vrednosti, dobimo število vseh statističnih enot, to je N.

Vsota vseh relativnih deležev je enaka . Če bi bili ti deleži podani v procentih, bi seveda dobili (torej vsota vseh deležev je ).

Naprej

Namig

Oglej si tabelo, ki opisuje primer izbire kandidatov za službo v vladni agenciji.

Tabela

Tabela

št. točkabs. fr.rel. fr.kumulativa abs. fr.kumulativa rel. fr.
410,020800,0000
710,020810,0208
910,020820,0417
1120,041730,0625
1220,041750,1042
1310,020870,1458
1440,083380,1667
1540,0833120,2500
1650,1042160,3333
1740,0833210,4375
1860,1250250,5208
1930,0625310,6458
2020,417340,7083
2150,1042360,7500
2210,0208410,8542
2330,0625420,8750
2420,0417450,9375
2510,0208460,9583

Kumulativa absolutnih frekvenc

Število sporoča, kolikokrat je naša spremenljivka zavzela vrednost, manjšo od . Temu številu rečemo kumulativa absolutnih frekvenc.

Število v zgoraj obravnavanem primeru o vladni agenciji sporoča, kolikokrat je spremenljivka zavzela vrednosti, manjše od , torej vrednosti Od tod sledi, da je

Od tod tudi izraz kumulativa, seštevek.

V splošnem velja:

Seštejemo torej absolutne frekvence tistih vrednosti statistične spremenljivke, ki so manjše od .

Naloga

Ugotovi pravilnost naslednjih izjav:

  1. Če neka statistična spremenljivka zavzame le naravne vrednosti med in , potem velja .

  2. Če ima naša statistična populacija elementov in je največja možna vrednost statistične spremenljivke, je .

Preveri

Pravilno

Odlično!

Komentar k prvem vprašanju:
Število sporoča, kolikokrat statistična spremenljivka zavzame vrednosti, manjše od , torej vrednosti . Število sporoča, kolikokrat statistična spremenljivka zavzame vrednost , število pa, kolikokrat zavzame vrednosti . Zato enakost drži.

Komentar k drugem vprašanju:
Gre za število statističnih enot, pri katerih statistična spremenljivka zavzame vrednost strogo manjšo od . Torej ne gre za vse statistične enote, saj pri statističnih enotah spremenljivka zavzame vrednost .

Naprej

Narobe

Prvo vprašanje si odgovoril napačno.
Število sporoča, kolikokrat statistična spremenljivka zavzame vrednosti, manjše od , torej vrednosti . Število sporoča, kolikokrat statistična spremenljivka zavzame vrednost , število pa, kolikokrat zavzame vrednosti . Zato enakost drži.

Narobe

Drugo vprašanje si odgovoril napačno.
Gre za število statističnih enot, pri katerih statistična spremenljivka zavzame vrednost strogo manjšo od . Torej ne gre za vse statistične enote, saj pri statističnih enotah spremenljivka zavzame vrednost .

Narobe

Obe vprašanji si odgovoril napačno.
Poskusi ponovno.

Komulativa relativnih frekvenc

Komulativa relativnih frekvenc sporoča relativni delež populacije, na kateri statistična spremenljivka zavzame vrednost, manjšo od .


Glede na zgornjo definicijo zato velja:

pa tudi

Delitev v razrede

Včasih statistična spremenljivka zavzame izjemno veliko različnih vrednosti, zato obravnava vsake vrednosti zase zastira pogled na celovito situacijo. Že v našem zgoraj obravnavanem primeru testa za izbiro kandidatov za zaposlitev imamo različnih vrednosti statistične spremenljivke, zato je zgornja tabela velika in nepregledna. V takih primerih vrednosti združujemo v razrede.

V našem primeru je vrednost statistične spremenljivke število doseženih točk. Ker se rezultat giblje med in točkami, bi lahko interval razdelili na pet razredov: , , , točk.

V spodnjo tabelo vpiši število ponovitev vrednosti slučajne spremenljivke znotraj vsakega od intervalov.

Prikaži odgovor Preveri

Odgovor

1
2
13
20
12

Poskusi ponovno Naprej

Tvoj rezultat je .

Predstavitev porazdelitve

Na podlagi tega lahko porazdelitev že lepše predstavimo. Z miško premakni točko na vrhu vsakega od stolpcev do ustrezne vrednosti. S tem bomo dobili predstavitev rezultatov testa z bločnim in s tortnim diagramom.

Aplikacija RiŠ se ni mogla zagnati. Prosim preverite, ali imate v brskalniku namescen program Java 1.4.2 (ali novejsi) (Kliknite tu za namestitev Jave)

Riš datoteka

O širinah intervalov

V našem primeru smo interval razdelili na pet enako širokih intervalov. Včasih pa je ugodneje, če širine niso enake. Oglejmo si tak primer.

Recimo, da bi delali raziskavo o tem, koliko daleč stran od ljudi iz neke izbrane skupine živijo njihovi res dobri prijatelji. V ta namen bi izvedli anketo, v kateri bi izbrane ljudi poprosili, da navedejo seznam svojih dobrih prijateljev, skupaj z oddaljenostjo med njihovim in prijateljevim bivališčem. Razdalje bi bile izražene v kilometrih in zaokrožene na cele kilometre.

Populacija, ki bi jo v tem primeru opazovali, je populacija prijateljev anketiranih oseb, statistična spremenljivka pa bi sporočala oddaljenost bivališča vsakega prijatelja do bivališča anketirane osebe.

Denimo, da bi najmanjša vrednost statistične spremenljivke znašala km (kar - zaradi zaokrožanja - pomeni razdaljo manj kot ), največja vrednost pa km, ker bi npr. nekdo imel prijatelja v Avstraliji.

(sydney.jpeg)


Zakaj ideja, da bi v tem primeru interval razdelili na enako dolge intervale, ni dobra?

Odgovor

Kašna razporeditev intervala 0-16.000 na pet intervalov bi se ti zdela bolj smiselna?

Možen odgovor

Ko vrednosti statistične spremenljivke grupiramo v intervale, sicer pridobimo na pregledanosti, zato pa se nam nekaj informacije izgubi.

Zato moramo razdelitev na razrede opraviti previdno. Pri tem moramo paziti na izbiro primernega števila razredov in na ustrezno razdelitev celotnega intervala na razrede. Ob tem igra pomembno vlogo odločitev o enako ali različno širokih intervalih.

Pridobljeno znanje o frekvencah in razdelitvi vrednosti statistične spremenljivke v razrede bomo utrdili z dodatnimi nalogami.

Možen odgovor

Na primer: km, km, km, km, več kot km.

Odgovor

Če bi delali z npr. petimi intervali, bi prvi interval znašal km. Tudi če bi imeli intervalov, bi prvi interval obsegal vrednosti . V vsakem primeru bi zelo verjetno skoraj vse vrednosti spremenljivke padle v prvi interval. Podatki znotraj tega intervala bi bili zelo raznoliki in ta informacija bi se, ko bi delali z intervali kot celotami, izgubila.

Dodatna naloga

1. Naloga

Naloga 1. Naslednji niz števil predstavlja število dni v decembru, ko je bila v letih 1991 - 2006 najnižja izmerjena dnevna temperatura v Mariboru pod :

Ustrezni niz za Ljubljano je naslednji:

a) Kaj je v našem primeru statistična populacija, kaj statistična enota in kaj merita dve statistični spremenljivki?
Odgovor

b) Zapiši tabelo absolutnih frekvenc za obe spremenljivki.
Odgovor

c) Vrednosti grupiraj v pet enako širokih intervalov in zapiši tabelo absolutnih in relativnih frekvenc za te intervale za obe spremenljivki.
Odgovor

d) Nariši dva bločna diagrama absolutnih frekvenc glede na zapisane intervale. Kaj opazimo ob primerjavi diagramov?
Odgovor

e) Za bolj radovedne: V gradivu o uvodu v statistiko si oglej zapis o korelaciji med dvema slučajnima spremenljivkama in namig o tem, kako se ta izračuna s programom Excel. Nato ugotovi korelacijski koeficient podanih dveh spremenljivk. Kaj lahko na podlagi tega sklepaš?
Odgovor

Odgovor

Statistična populacija so leta do , statistična enota je vsako od teh let. Statistični spremenjivki sta dve: ena se nanaša na Maribor druga na Ljubljano, v vsakem primeru pa sporoča število dni v decembru v posameznem letu, ko je bila izmerjena temperatura pod .

Odgovor

št. dni MB LJ
901
1102
1310
1410
1602
1813
1914
2030
2220
2321
2611
2720
2922

Odgovor

intervalMB absLJ absMB relLJ rel
6-100100.0625
11-15220.12500.1250
16-20590.31250.5625
21-25410.25000.0625
26-30530.31250.1875

Odgovor

Ob primerjavi diagramov opazimo, da so vrednosti v Ljubljani praviloma nižje: število hladnih decembrskih dni je praviloma manjše. Tako ima v zadnjih dveh kategorijah in Maribor tovrstnih decembrov, Ljubljana pa le .

Odgovor

Korelacijski koeficient znaša kar je sorazmerno zelo blizu . To pomeni, da sta spremenljivki tesno povezani. To nas ne preseneča, saj mila zima v Mariboru najbrž pomeni, da ta tudi v Ljubljani ne bo izrazito ostra.
0%
0%