Da ne bi govorili samo na splošno, bomo glavne poante o urejanju podatkov spoznali na konkretnem primeru.
Da ne bi govorili samo na splošno, bomo glavne poante o urejanju podatkov spoznali na konkretnem primeru.
Zaposlimo najboljše
Vladna agencija želi zaposliti 20 novih uslužbencev. Na objavljeni razpis se je prijavilo ogromno kandidatov, od katerih jih je 48 zadoščalo vsem razpisnim pogojem. Vodja kadrovske službe je zanje pripravil vprašalnik in test, ki naj bi pomagala pri odločitvi, katere od kandidatov zaposliti. Odgovore se je točkovalo; zbrati je bilo možno maksimalno 25 točk.
Populacija, s katero se ukvarjamo, je množica 48 kandidatov za službo, ki zadoščajo razpisnim pogojem. Statistična spremenljivka je število točk, ki jih vsak kandidat prejel na podlagi vprašalnika in testa.
Pred sabo imamo odgovore kandidatov, ki so urejeni po abecednem redu priimkov. Iz njih izluščimo naslednje vrednosti statistične spremenljivke:
| 16 | 21 | 14 | 7 | 14 | 9 | 12 | 17 | 15 | 21 | 23 | 20 | 19 | 18 | 16 | 25 |
| 22 | 18 | 24 | 23 | 18 | 21 | 16 | 15 | 11 | 21 | 13 | 17 | 18 | 14 | 21 | 18 |
| 4 | 16 | 12 | 15 | 11 | 17 | 21 | 19 | 18 | 16 | 24 | 14 | 17 | 19 | 23 | 15 |
V nadaljevanju bomo podatke uredili tako, da bodo bolj pregledni.
Za začetek jih uredimo po velikosti od najmanjšega do največjega:
| 4 | 7 | 9 | 11 | 11 | 12 | 12 | 13 | 14 | 14 | 14 | 14 | 15 | 15 | 15 | 15 |
| 16 | 16 | 16 | 16 | 16 | 17 | 17 | 17 | 17 | 18 | 18 | 18 | 18 | 18 | 18 | 19 |
| 19 | 19 | 20 | 20 | 21 | 21 | 21 | 21 | 21 | 22 | 23 | 23 | 23 | 24 | 24 | 25 |
O frekvencah
Podatke bomo uredili v spodnjo tabelo. Poglejmo si, kaj pomenijo števila v tej tabeli.
V prvem stolpcu je število doseženih točk (). V drugem je število kandidatov, ki je doseglo to število točk (). To število sporoča, kolikokrat je naša statistična spremenljivka zavzela vrednost . Temu rečemo tudi absolutna frekvenca vrednosti .
V tretjem stolpcu so relativne frekvence, to je relativni delež kandidatov, ki so dosegli posamezno število točk. Tako je npr. 16 točk doseglo 5 kandidatov od 48, kar pomeni, da je relativni delež enak 5/48 = 0,1042. Včasih so ti deleži podani tudi v procentih. V tem primeru bi pri =16 imeli 10,42% delež.
V četrtem in petem stolpcu so kumulative (vsote) absolutnih in relativnih frekvenc. Število pri vrednosti k=14 npr. pomeni število kandidatov, ki so zbrali manj kot 14 točk.
V petem stolpcu je relativni delež kandidatov, ki so dosegli manj kot določeno število točk. Število pri vrednosti spremenljivke =15 pomeni, da je 25% kandidatov doseglo manj kot 15 točk.
Izpolni manjkajoča polja!
Večina podatkov v tabeli je že vpisanih; v prazna polja vpiši manjkajoče podatke.
| št. točk | abs. fr. | rel. fr. | kumulativa abs. fr. | kumulativa rel. fr. |
| 4 | 1 | 0,0208 | 0 | 0,0000 |
| 7 | 1 | 0,0208 | 1 | 0,0208 |
| 9 | 1 | 0,0208 | 2 | 0,0417 |
| 11 | 2 | 0,0417 | 3 | 0,0625 |
| 12 | ||||
| 13 | 1 | 0,0208 | 7 | 0,1458 |
| 14 | 4 | 0,0833 | 8 | 0,1667 |
| 15 | 4 | 0,0833 | 12 | 0,2500 |
| 16 | 5 | 0,1042 | 16 | 0,3333 |
| 17 | 4 | 0,0833 | 21 | 0,4375 |
| 18 | ||||
| 19 | 3 | 0,0625 | 31 | 0,6458 |
| 20 | 2 | 0,0417 | 34 | 0,7083 |
| 21 | 5 | 0,1042 | 36 | 0,7500 |
| 22 | 1 | 0,0208 | 41 | 0,8542 |
| 23 | ||||
| 24 | 2 | 0,0417 | 45 | 0,9375 |
| 25 | 1 | 0,0208 | 46 | 0,9583 |
Odlično!
Odgovori so napačni.
Rešitev:
| št. točk | abs. fr. | rel. fr. | kumulativa abs. fr. | kumulativa rel. fr. |
| 4 | 1 | 0,0208 | 0 | 0,0000 |
| 7 | 1 | 0,0208 | 1 | 0,0208 |
| 9 | 1 | 0,0208 | 2 | 0,0417 |
| 11 | 2 | 0,0417 | 3 | 0,0625 |
| 12 | 2 | 0,0417 | 5 | 0,1042 |
| 13 | 1 | 0,0208 | 7 | 0,1458 |
| 14 | 4 | 0,0833 | 8 | 0,1667 |
| 15 | 4 | 0,0833 | 12 | 0,2500 |
| 16 | 5 | 0,1042 | 16 | 0,3333 |
| 17 | 4 | 0,0833 | 21 | 0,4375 |
| 18 | 6 | 0,1250 | 25 | 0,5208 |
| 19 | 3 | 0,0625 | 31 | 0,6458 |
| 20 | 2 | 0,0417 | 34 | 0,7083 |
| 21 | 5 | 0,1042 | 36 | 0,7500 |
| 22 | 1 | 0,0208 | 41 | 0,8542 |
| 23 | 3 | 0,0625 | 42 | 0,8750 |
| 24 | 2 | 0,0417 | 45 | 0,9375 |
| 25 | 1 | 0,0208 | 46 | 0,9583 |
Nekje si se zmotil.
Kateri podatek sporočiti?
Kandidat ob oddaji vprašalnika in testa ve le to, da bo delodajalec zaposlil približno 40% kandidatov, ki se potegujejo za delovno mesto. Ne ve niti, kako je potekalo točkovanje in koliko je bilo vseh točk na testu, niti, koliko je vseh kandidatov.
Denimo, da kandidatu, ki je na testu pisal 19 točk, lahko sporočimo samo en podatek iz zgornje tabele. Kateri od naštetih podatkov bi mu največ povedal o njegovih možnostih za zaposlitev? (Če nisi prepričan, kaj vsak od naštetih podatkov pomeni, boš z izbiro opcije izvedel osnovne podatke o ustreznem številu.)
Podatek pomeni, da je 64,58% kandidatov pisalo slabše od njega. To pomeni, da njegov rezultat sodi v zgornjih 35,42% vseh kandidatov. Ker bodo zaposlili 40% kandidatov, ima kar dobre možnosti.
Pravkar smo spoznali, da komulativa relativne frekvence da dovolj dober uvid v informacijo, kje primerjalno z drugimi se nahaja naš rezultat. Zato na mnogih univerzah po svetu študentom kot rezultat izpita poleg doseženega števila točk sporočijo tudi procent študentov, ki so pisali slabše ali enako. Tako bi npr. kandidat z doseženimi 21 točkami na zgornjem testu dobil informacijo:
| 21 točk | 85,42% |
To bi mu povedalo, da je njegov rezultat zelo soliden, saj je le 14,58 % kandidatov pisalo bolje.
Interaktivno besedilo
Zakaj smo zapisali 85,42% in ne 75%?
Zapomnimo si:
Denimo, da imamo populacijo elementov, na kateri naša slučajna spremenljivka lahko zavzame različne vrednosti. Denimo, da vrednost k zavzame krat. Potem številu rečemo absolutna frekvenca vrednosti . Številu rečemo relativna frekvenca vrednosti .
Preverimo razumevanje absolutnih in relativnih frekvenc
Imamo populacijo, ki jo sestavlja statističnih enot. Statistična spremenljivka lahko zavzame neke vrednosti . Če seštejemo absolutne frekvence vseh nastopajočih vrednosti , dobimo:
Če v zgoraj opisanih razmerah seštejemo vse relativne frekvence , dobimo:
Preverimo razumevanje absolutnih in relativnih frekvenc
Število v zgoraj obravnavanem primeru o vladni agenciji sporoča, kolikokrat je spremenljivka zavzela vrednosti, manjše od 14, torej vrednosti 7, 8, ..., 13. Od tod sledi, da je
Od tod tudi izraz kumulativa, seštevek.
V splošnem velja:
Seštejemo torej absolutne frekvence tistih vrednosti statistične spremenljivke, ki so manjše od .
Točno. Vsota vseh relativnih deležev je enaka 1. Če bi bili ti deleži podani v procentih, bi seveda dobili 100 (torej vsota vseh deležev je 100%).
Ni v redu.
Točno. Če seštejemo, pri kolikih statističnih enotah je nastopila vska od vrednosti, dobimo število vseh statističnih enot, to je N.
Ni v redu.
Oglej si tabelo, ki opisuje primer izbire kandidatov za službo v vladni agenciji.
O kumulativah
Ugotovi pravilnost naslednjih izjav:
Če neka statistična spremenljivka zavzame le naravne vrednosti med 1 in 10, potem velja .
Če ima naša statistična populacija elementov in je največja možna vrednost statistične spremenljivke, je .
O kumulativah
Glede na zgornjo definicijo zato velja:
pa tudi
Nepravilno.
Gre za število statističnih enot, pri katerih statistična spremenljivka zavzame vrednost strogo manjšo od k. Torej ne gre za vse statistične enote, saj pri statističnih enotah spremenljivka zavzame vrednost k.
Pravilen odgovor bi torej bil:
Pravilno.
Gre za število statističnih enot, pri katerih statistična spremenljivka zavzame vrednost strogo manjšo od k. Torej ne gre za vse statistične enote, saj pri statističnih enotah spremenljivka zavzame vrednost k.
Pravilen odgovor bi torej bil:
Pravilno.
Število sporoča, kolikokrat statistična spremenljivka zavzame vrednosti, manjše od 7, torej vrednosti 1,2,3,4,5,6. Število sporoča, kolikokrat statistična spremenljivka zavzame vrednost 6, število pa, kolikokrat zavzame vrednosti 1,2,3,4,5. Zato enakost drži.
Nepravilno.
Število sporoča, kolikokrat statistična spremenljivka zavzame vrednosti, manjše od 7, torej vrednosti 1,2,3,4,5,6. Število sporoča, kolikokrat statistična spremenljivka zavzame vrednost 6, število pa, kolikokrat zavzame vrednosti 1,2,3,4,5. Zato enakost drži.
Delitev v razrede
Včasih statistična spremenljivka zavzame izjemno veliko različnih vrednosti, zato obravnava vsake vrednosti zase zastira pogled na celovito situacijo. Že v našem zgoraj obravnavanem primeru testa za izbiro kandidatov za zaposlitev imamo 19 različnih vrednosti statistične spremenljivke, zato je zgornja tabela velika in nepregledna. V takih primerih vrednosti združujemo v razrede.
V našem primeru je vrednost statistične spremenljivke število doseženih točk. Ker se rezultat giblje med 0 in 25 točkami, bi lahko interval razdelili na pet razredov: 0-5, 6-10, 11-15, 16-20, 21-25 točk.
V tabelo vpiši število ponovitev vrednosti slučajne spremenljivke znotraj vsakega od intervalov.
| Preveri |
Na podlagi tega lahko porazdelitev že lepše predstavimo. Z miško premakni točko na vrhu vsakega od stolpcev do ustrezne vrednosti. S tem bomo dobili predstavitev rezultatov testa z bločnim in s tortnim diagramom.
Odlično!
Nekje si se zmotil.
Rešitev:
| 0-5 | 1 |
| 6-10 | 2 |
| 11-15 | 13 |
| 16-20 | 20 |
| 21-25 | 12 |
O širinah intervalov
V našem primeru smo interval 0-25 razdelili na pet enako širokih intervalov. Včasih pa je ugodneje, če širine niso enake. Oglejmo si tak primer.
Recimo, da bi delali raziskavo o tem, koliko daleč stran od ljudi iz neke izbrane skupine živijo njihovi res dobri prijatelji. V ta namen bi izvedli anketo, v kateri bi izbrane ljudi poprosili, da navedejo seznam svojih dobrih prijateljev, skupaj z oddaljenostjo med njihovim in prijateljevim bivališčem. Razdalje bi bile izražene v kilometrih in zaokrožene na cele kilometre.
Populacija, ki bi jo v tem primeru opazovali, je populacija prijateljev anketiranih oseb, statistična spremenljivka pa bi sporočala oddaljenost bivališča vsakega prijatelja do bivališča anketirane osebe.
Denimo, da bi najmanjša vrednost statistične spremenljivke znašala 0 km (kar - zaradi zaokrožanja - pomeni razdaljo manj kot 500m), največja vrednost pa 16.000 km, ker bi npr. nekdo imel prijatelja v Avstraliji.
Zakaj ideja, da bi v tem primeru interval 0-16.000 razdelili na enako dolge intervale, ni dobra?
Interaktivno besedilo
Kašna razporeditev intervala 0-16.000 na pet intervalov bi se ti zdela bolj smiselna?
Premisli, potem pa preveri odgovor
Če bi delali z npr. petimi intervali, bi prvi interval znašal 0-3200 km. Tudi če bi imeli 10 intervalov, bi prvi interval obsegal vrednosti 0-1600. V vsakem primeru bi zelo verjetno skoraj vse vrednosti spremenljivke padle v prvi interval. Podatki znotraj tega intervala bi bili zelo raznoliki in ta informacija bi se, ko bi delali z intervali kot celotami, izgubila.
Na primer: 0-2 km, 3-20 km, 21-100 km, 100-400 km, več kot 400 km.
Interaktivno besedilo
Ko vrednosti statistične spremenljivke grupiramo v intervale, sicer pridobimo na pregledanosti, zato pa se nam nekaj informacije izgubi.
Zato moramo razdelitev na razrede opraviti previdno. Pri tem moramo paziti na izbiro primernega števila razredov in na ustrezno razdelitev celotnega intervala na razrede. Ob tem igra pomembno vlogo odločitev o enako ali različno širokih intervalih.
Dodatna naloga
Naslednji niz števil predstavlja število dni v decembru, ko je bila v letih 1991 - 2006 najnižja izmerjena dnevna temperatura v Mariboru pod 0oC:
27, 20, 23, 22, 22, 26, 14, 29, 23, 13, 29, 19, 20, 20, 27, 18.
Ustrezni niz za Ljubljano je naslednji:
29, 19, 19, 18, 19, 18, 11, 29, 18, 9, 26, 16, 19, 16, 23, 11.
Statistična populacija: Leta 1991 do 2006 Mesti Maribor in Ljubljana
Statistična enota:
Statistični spremenljivki merita:
Dodatna naloga
Naslednji niz števil predstavlja število dni v decembru, ko je bila v letih 1991 - 2006 najnižja izmerjena dnevna temperatura v Mariboru pod 0oC:
27, 20, 23, 22, 22, 26, 14, 29, 23, 13, 29, 19, 20, 20, 27, 18.
Ustrezni niz za Ljubljano je naslednji:
29, 19, 19, 18, 19, 18, 11, 29, 18, 9, 26, 16, 19, 16, 23, 11.
Zapiši tabelo absolutnih frekvenc za obe spremenljivki.
| št. dni | MB | LJ |
Dodatna naloga
Naslednji niz števil predstavlja število dni v decembru, ko je bila v letih 1991 - 2006 najnižja izmerjena dnevna temperatura v Mariboru pod 0oC:
27, 20, 23, 22, 22, 26, 14, 29, 23, 13, 29, 19, 20, 20, 27, 18.
Ustrezni niz za Ljubljano je naslednji:
29, 19, 19, 18, 19, 18, 11, 29, 18, 9, 26, 16, 19, 16, 23, 11.
Vrednosti grupiraj v pet enako širokih intervalov 6-10,..., 26-30 in zapiši tabelo absolutnih in relativnih frekvenc za te intervale za obe spremenljivki.
| interval | MB abs. | LJ abs. | MB rel. | LJ rel. |
Dodatna naloga
Naslednji niz števil predstavlja število dni v decembru, ko je bila v letih 1991 - 2006 najnižja izmerjena dnevna temperatura v Mariboru pod 0oC:
27, 20, 23, 22, 22, 26, 14, 29, 23, 13, 29, 19, 20, 20, 27, 18.
Ustrezni niz za Ljubljano je naslednji:
29, 19, 19, 18, 19, 18, 11, 29, 18, 9, 26, 16, 19, 16, 23, 11.
Rešitev dodatne naloge
Zapiši tabelo absolutnih frekvenc za obe spremenljivki.
| št. dni | MB | LJ |
| 9 | 0 | 1 |
| 11 | 0 | 2 |
| 13 | 1 | 0 |
| 14 | 1 | 0 |
| 16 | 0 | 2 |
| 18 | 1 | 3 |
| 19 | 1 | 4 |
| 20 | 3 | 0 |
| 22 | 2 | 0 |
| 23 | 2 | 1 |
| 26 | 1 | 1 |
| 27 | 2 | 0 |
| 29 | 2 | 2 |
Vrednosti grupiraj v pet enako širokih intervalov 6-10,..., 26-30 in zapiši tabelo absolutnih in relativnih frekvenc za te intervale za obe spremenljivki.
| interval | MB abs. | LJ abs. | MB rel. | LJ rel. |
| 6-10 | 0 | 1 | 0 | 0.0625 |
| 11-15 | 2 | 2 | 0.1250 | 0.1250 |
| 16-20 | 5 | 9 | 0.3125 | 0.5625 |
| 21-25 | 4 | 1 | 0.2500 | 0.0625 |
| 26-30 | 5 | 3 | 0.3125 | 0.1875 |
Rezultati