Urejanje podatkov

Urejanje podatkov

Avtor: E-um (vsebinsko), Skupina NAUK (tehnično)

Da ne bi govorili samo na splošno, bomo glavne poante o urejanju podatkov spoznali na konkretnem primeru.

Zaposlimo najboljše

Vladna agencija želi zaposliti 20 novih uslužbencev. Na objavljeni razpis se je prijavilo ogromno kandidatov, od katerih jih je 48 zadoščalo vsem razpisnim pogojem. Vodja kadrovske službe je zanje pripravil vprašalnik in test, ki naj bi pomagala pri odločitvi, katere od kandidatov zaposliti. Odgovore se je točkovalo; zbrati je bilo možno maksimalno 25 točk.

Populacija, s katero se ukvarjamo, je množica 48 kandidatov za službo, ki zadoščajo razpisnim pogojem. Statistična spremenljivka je število točk, ki jih vsak kandidat prejel na podlagi vprašalnika in testa.

Pred sabo imamo odgovore kandidatov, ki so urejeni po abecednem redu priimkov. Iz njih izluščimo naslednje vrednosti statistične spremenljivke:

162114714912171521232019181625
22182423182116151121131718142118
4161215111721191816241417192315

V nadaljevanju bomo podatke uredili tako, da bodo bolj pregledni.

Za začetek jih uredimo po velikosti od najmanjšega do največjega:

47911111212131414141415151515
16161616161717171718181818181819
19192020212121212122232323242425

O frekvencah

Podatke bomo uredili v spodnjo tabelo. Poglejmo si, kaj pomenijo števila v tej tabeli.

V prvem stolpcu je število doseženih točk (). V drugem je število kandidatov, ki je doseglo to število točk (). To število sporoča, kolikokrat je naša statistična spremenljivka zavzela vrednost . Temu rečemo tudi absolutna frekvenca vrednosti .

V tretjem stolpcu so relativne frekvence, to je relativni delež kandidatov, ki so dosegli posamezno število točk. Tako je npr. 16 točk doseglo 5 kandidatov od 48, kar pomeni, da je relativni delež enak 5/48 = 0,1042. Včasih so ti deleži podani tudi v procentih. V tem primeru bi pri =16 imeli 10,42% delež.

V četrtem in petem stolpcu so kumulative (vsote) absolutnih in relativnih frekvenc. Število pri vrednosti k=14 npr. pomeni število kandidatov, ki so zbrali manj kot 14 točk.

V petem stolpcu je relativni delež kandidatov, ki so dosegli manj kot določeno število točk. Število pri vrednosti spremenljivke =15 pomeni, da je 25% kandidatov doseglo manj kot 15 točk.

Izpolni manjkajoča polja!

Večina podatkov v tabeli je že vpisanih; v prazna polja vpiši manjkajoče podatke.

Preveri

št. točkabs. fr.rel. fr.kumulativa abs. fr.kumulativa rel. fr.
410,020800,0000
710,020810,0208
910,020820,0417
1120,041730,0625
12
1310,020870,1458
1440,083380,1667
1540,0833120,2500
1650,1042160,3333
1740,0833210,4375
18
1930,0625310,6458
2020,0417340,7083
2150,1042360,7500
2210,0208410,8542
23
2420,0417450,9375
2510,0208460,9583

Odlično!

Naprej

Odgovori so napačni.

Rešitev:

št. točkabs. fr.rel. fr.kumulativa abs. fr.kumulativa rel. fr.
410,020800,0000
710,020810,0208
910,020820,0417
1120,041730,0625
1220,041750,1042
1310,020870,1458
1440,083380,1667
1540,0833120,2500
1650,1042160,3333
1740,0833210,4375
1860,1250250,5208
1930,0625310,6458
2020,0417340,7083
2150,1042360,7500
2210,0208410,8542
2330,0625420,8750
2420,0417450,9375
2510,0208460,9583

Naprej

Nekje si se zmotil.

Ponovno

Kateri podatek sporočiti?

Kandidat ob oddaji vprašalnika in testa ve le to, da bo delodajalec zaposlil približno 40% kandidatov, ki se potegujejo za delovno mesto. Ne ve niti, kako je potekalo točkovanje in koliko je bilo vseh točk na testu, niti, koliko je vseh kandidatov.

Denimo, da kandidatu, ki je na testu pisal 19 točk, lahko sporočimo samo en podatek iz zgornje tabele. Kateri od naštetih podatkov bi mu največ povedal o njegovih možnostih za zaposlitev? (Če nisi prepričan, kaj vsak od naštetih podatkov pomeni, boš z izbiro opcije izvedel osnovne podatke o ustreznem številu.)


Podatek pomeni, da so trije kandidati pisali 19 točk. To kandidatu o njegovih možnostih ne pove kaj dosti.


Podatek pomeni, da je 6,25% kandidatov pisalo enako uspešno kot on. To kandidatu o njegovih možnostih ne pove kaj dosti.


Podatek pomeni, da je bilo pri točkovanju 31 kandidatov slabših od njega. Če bi vedel, koliko konkurentov ima, bi mu ta podatek pomagal, tako pa mu ne.


Podatek pomeni, da je v točkovanju zbral 19 točk. Ker kandidat ne ve, koliko je bilo vseh točk in kakšni so rezultati konkurentov, mu podatek ne pove kaj dosti.


Podatek pomeni, da je 64,58% kandidatov pisalo slabše od njega. To pomeni, da njegov rezultat sodi v zgornjih 35,42% vseh kandidatov. Ker bodo zaposlili 40% kandidatov, ima kar dobre možnosti.

Pravkar smo spoznali, da komulativa relativne frekvence da dovolj dober uvid v informacijo, kje primerjalno z drugimi se nahaja naš rezultat. Zato na mnogih univerzah po svetu študentom kot rezultat izpita poleg doseženega števila točk sporočijo tudi procent študentov, ki so pisali slabše ali enako. Tako bi npr. kandidat z doseženimi 21 točkami na zgornjem testu dobil informacijo:

21 točk85,42%

To bi mu povedalo, da je njegov rezultat zelo soliden, saj je le 14,58 % kandidatov pisalo bolje.

Interaktivno besedilo

Zakaj smo zapisali 85,42% in ne 75%?

Ker je 75% kandidatov pisalo slabše od našega kandidata. Mi pa mu sporočamo, kolikšen delež je pisal slabše ali enako.
 

Zapomnimo si:

Denimo, da imamo populacijo elementov, na kateri naša slučajna spremenljivka lahko zavzame različne vrednosti. Denimo, da vrednost k zavzame krat. Potem številu rečemo absolutna frekvenca vrednosti . Številu rečemo relativna frekvenca vrednosti .

Preverimo razumevanje absolutnih in relativnih frekvenc

Imamo populacijo, ki jo sestavlja statističnih enot. Statistična spremenljivka lahko zavzame neke vrednosti . Če seštejemo absolutne frekvence vseh nastopajočih vrednosti , dobimo:

Namig

Če v zgoraj opisanih razmerah seštejemo vse relativne frekvence , dobimo:

Preverimo razumevanje absolutnih in relativnih frekvenc

 
Število sporoča, kolikokrat je naša spremenljivka zavzela vrednost , manjšo od k. Temu številu rečemo komulativa absolutnih frekvenc.

Število v zgoraj obravnavanem primeru o vladni agenciji sporoča, kolikokrat je spremenljivka zavzela vrednosti, manjše od 14, torej vrednosti 7, 8, ..., 13. Od tod sledi, da je

Od tod tudi izraz kumulativa, seštevek.

 

V splošnem velja:

Seštejemo torej absolutne frekvence tistih vrednosti statistične spremenljivke, ki so manjše od .

Točno. Vsota vseh relativnih deležev je enaka 1. Če bi bili ti deleži podani v procentih, bi seveda dobili 100 (torej vsota vseh deležev je 100%).

Ni v redu.

Točno. Če seštejemo, pri kolikih statističnih enotah je nastopila vska od vrednosti, dobimo število vseh statističnih enot, to je N.

Ni v redu.

Oglej si tabelo, ki opisuje primer izbire kandidatov za službo v vladni agenciji.

O kumulativah

Ugotovi pravilnost naslednjih izjav:

Če neka statistična spremenljivka zavzame le naravne vrednosti med 1 in 10, potem velja .

Pravilno.
Nepravilno.

Če ima naša statistična populacija elementov in je največja možna vrednost statistične spremenljivke, je .

Pravilno.
Nepravilno.

O kumulativah

 
Komulativa relativnih frekvenc sporoča relativni delež populacije, na kateri statistična spremenljivka zavzame vrednost, manjšo od k.
 

Glede na zgornjo definicijo zato velja:

pa tudi

Nepravilno.

Gre za število statističnih enot, pri katerih statistična spremenljivka zavzame vrednost strogo manjšo od k. Torej ne gre za vse statistične enote, saj pri statističnih enotah spremenljivka zavzame vrednost k.

Pravilen odgovor bi torej bil:

Pravilno.

Gre za število statističnih enot, pri katerih statistična spremenljivka zavzame vrednost strogo manjšo od k. Torej ne gre za vse statistične enote, saj pri statističnih enotah spremenljivka zavzame vrednost k.

Pravilen odgovor bi torej bil:

Pravilno.

Število sporoča, kolikokrat statistična spremenljivka zavzame vrednosti, manjše od 7, torej vrednosti 1,2,3,4,5,6. Število sporoča, kolikokrat statistična spremenljivka zavzame vrednost 6, število pa, kolikokrat zavzame vrednosti 1,2,3,4,5. Zato enakost drži.

Nepravilno.

Število sporoča, kolikokrat statistična spremenljivka zavzame vrednosti, manjše od 7, torej vrednosti 1,2,3,4,5,6. Število sporoča, kolikokrat statistična spremenljivka zavzame vrednost 6, število pa, kolikokrat zavzame vrednosti 1,2,3,4,5. Zato enakost drži.

Delitev v razrede

Včasih statistična spremenljivka zavzame izjemno veliko različnih vrednosti, zato obravnava vsake vrednosti zase zastira pogled na celovito situacijo. Že v našem zgoraj obravnavanem primeru testa za izbiro kandidatov za zaposlitev imamo 19 različnih vrednosti statistične spremenljivke, zato je zgornja tabela velika in nepregledna. V takih primerih vrednosti združujemo v razrede.

V našem primeru je vrednost statistične spremenljivke število doseženih točk. Ker se rezultat giblje med 0 in 25 točkami, bi lahko interval razdelili na pet razredov: 0-5, 6-10, 11-15, 16-20, 21-25 točk.

V tabelo vpiši število ponovitev vrednosti slučajne spremenljivke znotraj vsakega od intervalov.

0-5
6-10
11-15
16-20
21-25






Preveri

Na podlagi tega lahko porazdelitev že lepše predstavimo. Z miško premakni točko na vrhu vsakega od stolpcev do ustrezne vrednosti. S tem bomo dobili predstavitev rezultatov testa z bločnim in s tortnim diagramom.

Aplikacija RiŠ se ni mogla zagnati. Prosim preverite, ali imate v brskalniku namescen program Java 1.4.2 (ali novejsi) (Kliknite tu za namestitev Jave)

Odlično!

Nekje si se zmotil.

Rešitev:

0-51
6-102
11-1513
16-2020
21-2512

O širinah intervalov

V našem primeru smo interval 0-25 razdelili na pet enako širokih intervalov. Včasih pa je ugodneje, če širine niso enake. Oglejmo si tak primer.

Recimo, da bi delali raziskavo o tem, koliko daleč stran od ljudi iz neke izbrane skupine živijo njihovi res dobri prijatelji. V ta namen bi izvedli anketo, v kateri bi izbrane ljudi poprosili, da navedejo seznam svojih dobrih prijateljev, skupaj z oddaljenostjo med njihovim in prijateljevim bivališčem. Razdalje bi bile izražene v kilometrih in zaokrožene na cele kilometre.

Populacija, ki bi jo v tem primeru opazovali, je populacija prijateljev anketiranih oseb, statistična spremenljivka pa bi sporočala oddaljenost bivališča vsakega prijatelja do bivališča anketirane osebe.

Denimo, da bi najmanjša vrednost statistične spremenljivke znašala 0 km (kar - zaradi zaokrožanja - pomeni razdaljo manj kot 500m), največja vrednost pa 16.000 km, ker bi npr. nekdo imel prijatelja v Avstraliji.

(./datoteke/sydney.jpeg)

Zakaj ideja, da bi v tem primeru interval 0-16.000 razdelili na enako dolge intervale, ni dobra?

Interaktivno besedilo

Kašna razporeditev intervala 0-16.000 na pet intervalov bi se ti zdela bolj smiselna?

Premisli, potem pa preveri odgovor

Če bi delali z npr. petimi intervali, bi prvi interval znašal 0-3200 km. Tudi če bi imeli 10 intervalov, bi prvi interval obsegal vrednosti 0-1600. V vsakem primeru bi zelo verjetno skoraj vse vrednosti spremenljivke padle v prvi interval. Podatki znotraj tega intervala bi bili zelo raznoliki in ta informacija bi se, ko bi delali z intervali kot celotami, izgubila.

Na primer: 0-2 km, 3-20 km, 21-100 km, 100-400 km, več kot 400 km.

Interaktivno besedilo

 

Ko vrednosti statistične spremenljivke grupiramo v intervale, sicer pridobimo na pregledanosti, zato pa se nam nekaj informacije izgubi.

Zato moramo razdelitev na razrede opraviti previdno. Pri tem moramo paziti na izbiro primernega števila razredov in na ustrezno razdelitev celotnega intervala na razrede. Ob tem igra pomembno vlogo odločitev o enako ali različno širokih intervalih.

Dodatna naloga

Naslednji niz števil predstavlja število dni v decembru, ko je bila v letih 1991 - 2006 najnižja izmerjena dnevna temperatura v Mariboru pod 0oC:
27, 20, 23, 22, 22, 26, 14, 29, 23, 13, 29, 19, 20, 20, 27, 18.
Ustrezni niz za Ljubljano je naslednji:
29, 19, 19, 18, 19, 18, 11, 29, 18, 9, 26, 16, 19, 16, 23, 11.

  • Kaj je v našem primeru statistična populacija, kaj statistična enota in kaj merita dve statistični spremenljivki?

Statistična populacija: Leta 1991 do 2006 Mesti Maribor in Ljubljana

Statistična enota:

Statistični spremenljivki merita:

Dodatna naloga

Naslednji niz števil predstavlja število dni v decembru, ko je bila v letih 1991 - 2006 najnižja izmerjena dnevna temperatura v Mariboru pod 0oC:
27, 20, 23, 22, 22, 26, 14, 29, 23, 13, 29, 19, 20, 20, 27, 18.
Ustrezni niz za Ljubljano je naslednji:
29, 19, 19, 18, 19, 18, 11, 29, 18, 9, 26, 16, 19, 16, 23, 11.

  • Zapiši tabelo absolutnih frekvenc za obe spremenljivki.

    št. dniMBLJ

Dodatna naloga

Naslednji niz števil predstavlja število dni v decembru, ko je bila v letih 1991 - 2006 najnižja izmerjena dnevna temperatura v Mariboru pod 0oC:
27, 20, 23, 22, 22, 26, 14, 29, 23, 13, 29, 19, 20, 20, 27, 18.
Ustrezni niz za Ljubljano je naslednji:
29, 19, 19, 18, 19, 18, 11, 29, 18, 9, 26, 16, 19, 16, 23, 11.

  • Vrednosti grupiraj v pet enako širokih intervalov 6-10,..., 26-30 in zapiši tabelo absolutnih in relativnih frekvenc za te intervale za obe spremenljivki.

    intervalMB abs.LJ abs.MB rel.LJ rel.

Dodatna naloga

Naslednji niz števil predstavlja število dni v decembru, ko je bila v letih 1991 - 2006 najnižja izmerjena dnevna temperatura v Mariboru pod 0oC:
27, 20, 23, 22, 22, 26, 14, 29, 23, 13, 29, 19, 20, 20, 27, 18.
Ustrezni niz za Ljubljano je naslednji:
29, 19, 19, 18, 19, 18, 11, 29, 18, 9, 26, 16, 19, 16, 23, 11.

  • Na papir nariši dva bločna diagrama absolutnih frekvenc glede na zapisane intervale. Kaj opazimo ob primerjavi diagramov?



  • Za bolj radovedne: V gradivu o uvodu v statistiko si oglej zapis o korelaciji med dvema slučajnima spremenljivkama in namig o tem, kako se ta izračuna s programom Excel. Nato ugotovi korelacijski koeficient podanih dveh spremenljivk. Kaj lahko na podlagi tega sklepaš?

Preveri svoje rešitve

Rešitev dodatne naloge

  • Kaj je v našem primeru statistična populacija, kaj statistična enota in kaj merita dve statistični spremenljivki?
    Statistična populacija so leta 1991 do 2006, statistična enota je vsako od teh let. Statistični spremenjivki sta dve: ena se nanaša na Maribor druga na Ljubljano, v vsakem primeru pa sporoča število dni v decembru v posameznem letu, ko je bila izmerjena temperatura pod 0oC.
  • Zapiši tabelo absolutnih frekvenc za obe spremenljivki.

    št. dniMBLJ
    901
    1102
    1310
    1410
    1602
    1813
    1914
    2030
    2220
    2321
    2611
    2720
    2922
  • Vrednosti grupiraj v pet enako širokih intervalov 6-10,..., 26-30 in zapiši tabelo absolutnih in relativnih frekvenc za te intervale za obe spremenljivki.

    intervalMB abs.LJ abs.MB rel.LJ rel.
    6-100100.0625
    11-15220.12500.1250
    16-20590.31250.5625
    21-25410.25000.0625
    26-30530.31250.1875
  • Na papir nariši dva bločna diagrama absolutnih frekvenc glede na zapisane intervale. Kaj opazimo ob primerjavi diagramov?
    Ob primerjavi diagramov opazimo, da so vrednosti v Ljubljani praviloma nižje: število hladnih decembrskih dni je praviloma manjše. Tako ima v zadnjih dveh kategorijah 21-25 in 26-30 Maribor 9 tovrstnih decembrov, Ljubljana pa le 4.
  • Za bolj radovedne: V gradivu o uvodu v statistiko si oglej zapis o korelaciji med dvema slučajnima spremenljivkama in namig o tem, kako se ta izračuna s programom Excel. Nato ugotovi korelacijski koeficient podanih dveh spremenljivk. Kaj lahko na podlagi tega sklepaš?
    Korelacijski koeficient znaša 0,9112 kar je sorazmerno zelo blizu 1. To pomeni, da sta spremenljivki tesno povezani. To nas ne preseneča, saj mila zima v Mariboru najbrž pomeni, da ta tudi v Ljubljani ne bo izrazito ostra.

Rezultati

0%
0%