Statistika - teorija

Statistika - teorija

Avtor: Skupina NAUK

Učni cilji: Spoznati statistične pojme in se naučiti načinov zbiranja, obdelave, prikazovanja in interpretacije podatkov.

Osnovni statistični pojmi

Statistika je veda, ki preučuje množične pojave. To so lastnosti, ki se pojavijo pri tako velikem številu ljudi ali predmetov, da bi štetje trajalo predolgo. Množico, ki jo preučujemo, imenujemo populacija. Posamezen element populacije se imenuje enota. Ker ne moremo pregledati lastnosti v celi populaciji, izberemo le del elementov iz cele množice in lastnost pogledamo le pri njih. Tem izbranim elementom rečemo vzorec. Lastnost, ki jo gledamo, imenujemo statistična spremenljivka.

Zgled 1:

Zanima nas, koliko časa na dan dijaki uporabljajo računalnik. Ker ne moremo vprašati vseh dijakov, izberemo iz vsake šole 3.

populacijadijaki
enotaposamezen dijak
vzorec3 dijaki z vsake šole
statistična spremenljivkaštevilo ur uporabe računalnika na dan



Zgled 2:

Tovarna je izdelala 50000 računalnikov. Radi bi ugotovili, koliko računalnikov ima napako. Pregledali bodo 100 naključno izbranih računalnikov.

populacija50000 računalnikov
enotaposamezen računalnik
vzorec100 naključno izbranih računalnikov
statistična spremenljivkadelovanje (pravilno, z napako)

Vrste podatkov

Statistična spremenljivka je lahko številska,kjer so njene vrednosti števila, ali opisna, kjer so njene vrednosti imena, opisi ipd.

Zgled:

Zbirali smo mnenja o mestnem parku. Naključno izbranim mimoidočim smo postavili dve vprašanji.

  1. Prosimo, ocenite izgled parka z oceno od 1 do 5.
  2. Povejte, katera izmed naslednjih stvari vam je v parku najbolj všeč: sprehajalne poti, urejene cvetlične gredice, gugalnice.

V tem zgledu nastopata dve statistični spremenljivki. Prva je ocena parka, ki je številska spremenljivka, zavzame lahko vrednosti 1 do 5. Druga je najbolj všečna stvar v parku, to je opisna spremenljivka, zavzame lahko tri vrednosti (sprehajalne poti, urejene cvetlične gredice, gugalnice).

Statistična spremenljivkaVrsta spremenljivkeVrednosti spremenljivke
ocena parkaštevilska1, 2, 3, 4, 5
najbolj všečna stvar v parkuopisnasprehajalne poti, urejene cvetlične gredice, gugalnice

PREMISLITE

Ali je množica vrednosti ene spremenljivke končna ali neskončna?

Odgovor

Ko zbiramo vrednosti spremenljivke, se lahko omejimo ali pa ne. Pri drugem vprašanju v zgledu smo na izbiro ponudili 3 možnosti. Lahko pa ne bi ponudili nobene možnosti na izbiro in pustili anketirancem, da povedo karkoli. V tem primeru bi bila množica, iz katere bi izbirali vrednosti, neskončna.

Vendar pa vrednosti spremenljivk vedno zbiramo na končni množici (vzorec), zato je množica različnih vrednosti, ki jih dobimo, vedno končna, ne glede na to, ali te vrednosti izbiramo iz končne ali neskončne množice.

Zbiranje podatkov

Podatke za statistično obdelavo zbiramo na dva načina, preko vprašalnikov oziroma anket ali z opazovanjem in beleženjem opažanj.

Vprašalniki so lahko sestavljeni samo iz enega vprašanja ali pa vsebujejo več med seboj povezanih ali nepovezanih vprašanj. Kako sestavimo vprašalnik, je odvisno od tega, koliko in katere spremenljivke želimo raziskati.

Zgledi anket:

Kratka anketa

Daljša anketa

(anketa_mini.png)

(anketa_maxi.png)

Urejanje in strukturiranje podatkov 1

Ko zbiramo podatke, ponavadi dobimo dolg niz vrednosti, ki jih zavzame proučevana statistična spremenljivka na posameznih enotah. Tak niz podatkov je nepregleden, zato ga uredimo.

Zgled 1:

Razred 30 dijakov je pisal test iz matematike. Dobili so naslednje ocene: 5, 3, 1, 2, 1, 3, 4, 3, 3, 2, 5, 4, 1, 1, 2, 4, 3, 3, 3, 2, 2, 4, 5, 4, 1, 4, 3, 4, 3, 3.

Kadar je število različnih vrednosti majhno, samo preštejemo, kolikokrat je spremenljivka zavzela vsako od možnih vrednosti. Temu številu rečemo absolutna frekvenca in ga označimo z .

Absolutna frekvenca je število, ki nam pove, koliko enot zavzame isto vrednost spremenljivke.

vrednost absolutna frekvenca
15
25
310
47
53

Na ta način smo dobili pregledno urejene podatke.

Urejanje in strukturiranje podatkov 2

Kadar je število različnih vrednosti veliko, vrednosti razvrstimo v razrede. Število vrednosti v posameznem razredu se imenuje absolutna frekvenca .

Zgled 2:

Test je imel 100 možnih točk. Dijaki so dobili naslednje število točk: 99, 54, 11, 32, 19, 58, 65, 40, 41, 28, 99, 70, 15, 2, 30, 79, 54, 52, 41, 39, 35, 77, 82, 70, 15, 65, 59, 76, 50, 47.

Razred Obseg razredaAbsolutna frekvenca
10 - 195
220 - 395
340 - 5910
460 - 797
580 - 1003

Ko podatke grupiramo v razrede, je pomembno, da razrede določimo tako, da nobena vrednost ne ostane brez razreda in da nobena vrednost ni v dveh različnih razredih.

Zgled neprimernega oblikovanja razredov:

Razred Obseg razreda
10 - 20
220 - 39
Razred Obseg razreda
10 - 19
221 - 39
Vrednost 20 bi sodila v dva razreda.Vrednost 20 bi ostala brez razreda.

Prikazovanje podatkov - frekvenčni poligon

Zbrane podatke zaradi nazornosti prikažemo grafično. V ta namen imamo na voljo nekaj različnih vrst grafikonov.

Frekvenčni poligon narišemo v koordinatnem sistemu. Na abscisno os nanesemo vrednosti, na ordinatno os pa absolutne frekvence. V tako dobljen koordinatni sistem narišemo točke in jih povežemo z lomljeno črto.

Frekvenčni poligon je primernejši za predstavitev, kadar statistična spremenljivka zavzame malo vrednosti in teh ne združujemo v razrede.

Zgled:

Avtomobilski salon dela 5-letni pregled poslovanja. Rezultati so naslednji:

LetoŠtevilo prodanih avtomobilov
2005344
2006487
2007513
2008500
2009426
(frekvencni.png)

Prikazovanje podatkov - histogram

Histogram narišemo tako, da na abscisno os nanesemo meje razredov, na ordinatno os pa absolutne frekvence. Razred na abscisni osi predstavlja daljica, ki je določena s spodnjo in zgornjo mejo razreda. Nad njo narišemo pravokotnik, ki ima za višino vrednost absolutne frekvence tega razreda.

Zgled:

V splošni knjižnici so želeli narediti raziskavo, koliko stari člani najpogosteje obiskujejo knjižnico. V ta namen so v enem dnevu anketirali vse obiskovalce in dobili naslednje rezultate:

Starostna skupinaŠtevilo obiskovalcev
10-1970
20-29105
30-3947
40-4922
50-5984
60-6956
(histogram.png)

Seveda pa lahko tudi s histogramom narišemo samo vrednosti in s frekvenčnim poligonom razrede.

Relativna frekvenca

Velikokrat nam samo absolutna frekvenca ne pove dovolj, saj nam pove samo število enot z isto lastnostjo, želeli pa bi poznati delež enot s to lastnostjo.

Delež ali relativno frekvenco izračunamo tako, da absolutno frekvenco delimo s številom enot v vzorcu. Relativno frekvenco ponavadi označujemo z

Relativno frekvenco velikokrat izražamo v procentih. Za to moramo dobljeno število množiti s 100 %.



Relativna frekvenca je število, ki nam pove, kolikšen del vzorca zavzame isto vrednost spremenljivke. Če je bil vzorec izbran slučajno, potem lahko to lastnost prenesemo na celo populacijo.

Prikazovanje podatkov - frekvenčni krog

Relativne frekvence grafično prikažemo s frekvenčnim krogom. Narišemo ga tako, da narišemo krožne izseke. Delež izseka v krogu predstavlja relativno frekvenco posamezne vrednosti.

Zgled:

Neka spletna stran je objavila anketno vprašanje: Kateri letni čas imate najraje? Ponudili so 4 možne odgovore (pomlad, poletje, jesen, zima) in dobili naslednje rezultate:

Letni časDelež glasov
pomlad20 %
poletje55 %
jesen7 %
zima18 %
(krog.png)

Statistični parametri

Statistični parametri so lastnosti celotne populacije. Do njih pridemo s preučevanjem izbranega vzorca. Če je vzorec izbran slučajno, potem lahko lastnosti, ki jih iz zbranih podatkov izračunamo za vzorec, kar posplošimo na celo populacijo.

Zgled:

Društvo za boj proti alkoholizmu je izvajalo raziskavo o porabi alkohola. Zbrali so odgovore tistih, ki so prostovoljno rešili anketo. Vzorec za raziskavo ni slučajen, ker v poštev niso prišli vsi, ampak samo prostovoljci.

Nekateri izmed parametrov so: relativna frekvenca, aritmetična sredina, mediana, modus in standardni odklon. V nadaljevanju si poglejmo, kaj pomenijo in kako jih izračunamo.

Aritmetična sredina

Ko preučujemo neko spremenljivko, dobimo množico vrednosti. Aritmetična sredina ali povprečje je število, ki predstavlja srednjo vrednost za te vrednosti spremenljivke. Izračunamo jo tako, da seštejemo vse vrednosti in dobljeno vsoto delimo s številom vseh vrednosti.

Kadar se ena vrednost ponovi večkrat, jo moramo v vsoti šteti tolikokrat, kolikokrat se ponovi oziroma uporabimo naslednji obrazec:

je vrednost spremenljivke, je absolutna frekvenca spremenljivke, pa število vseh vrednosti.

Zgled 1:

Janez je dobil pri telovadbi tri ocene: 3, 4, in 5. Kolikšna je povprečna ocena?



Zgled 2:

Janez je dobil pri matematiki 2 trojki, 3 štirice in 4 petke. Kolikšna je povprečna ocena?

Mediana in modus

Mediana ali središčnica je število, ki je točno na sredini vseh vrednosti, tako da je polovica vseh dobljenih vrednosti manjša, polovica pa večja od tega števila. Dobimo jo tako, da vrednosti najprej razporedimo po velikosti. Kadar je število vrednosti liho, potem je mediana kar srednje število, če je število vrednosti sodo, pa je mediana na sredi med srednjima vrednostima.

Zgled 1:

Poiščimo mediano naslednjih števil: 17, 10, 2, 7, 7, 1, 2, 6, 3.

  • Števila najprej uredimo po velikosti: 1, 2, 2, 3, 6, 7, 7, 10, 17.
  • Imamo 9, torej liho število števil, srednje število je peto po vrsti, torej mediana je 6.

Zgled 2:

Poiščimo mediano naslednjih števil: 9, 3, 3, 4, 9, 5, 2, 2, 8, 10.

  • Števila uredimo po velikosti: 2, 2, 3, 3, 4, 5, 8, 9, 9, 10.
  • Imamo 10, torej sodo število števil, mediana je na sredini med srednjima dvema vrednostima, to sta 4 in 5, torej je mediana 4,5.



Modus je vrednost, ki se pojavi največkrat.

Zgled:

Poišči modus med naslednjimi števili: 4, 2, 3, 2, 2, 3, 3, 2, 5, 4, 2, 3, 3, 2.

Število 2 se je pojavilo šestkrat, število 3 petkrat, število 4 dvakrat in število 5 enkrat. Modus je število 2.

Standardni odklon

Poleg aritmetične sredine je pomemben podatek tudi, kako gosto so podatki razporejeni okoli nje. Številu, ki nam to pove, rečemo standardni odklon. Označimo ga s in izračunamo ga po formuli

kjer so vrednosti spremenljivke, število vrednosti in aritmetična sredina.

Če je aritmetična sredina velika, standardni odklon pa majhen, to pomeni, da je večina vrednosti blizu aritmetične sredine. Pri primerjavi aritmetične sredine in standardnega odklona si lahko pomagamo s formulo za koeficient variacije

K izrazimo v procentih. Če je K majhen, potem so vrednosti blizu aritmetične sredine, če je K velik, potem so vrednosti zelo razpršene.

Zgled:

Učenci so tekmovali v skoku v daljavo. Dosežene so bile naslednje daljave v centimetrih: 131, 155, 177, 207, 180, 191, 174, 205, 119, 137, 109, 172, 185, 201, 111, 183. Izračunajte aritmetično sredino in standardni odklon. Kaj nam povesta izračunana podatka?

  • Aritmetična sredina je
  • Standardni odklon je
  • , to pomeni, da so podatki precej razpršeni in da je malo podatkov blizu aritmetične sredine.
0%
0%