Uvod v statistiko

Uvod v statistiko

Avtor: E-um (vsebinsko), Skupina NAUK (tehnično)

Uvod

Pogovorili se bomo o tem, kaj je to statistika in spoznali nekaj osnovnih pojmov, ki nastopajo v statistiki.

Ob listanju tekstov, ki prinašajo uvod v statistiko, pogosto zaznamo naslednje protislovje:

  • Po eni strani je videti, kot bi bila statistika zahtevno področje matematike. V gimnazijskih učbenikih nastopa sorazmerno pozno, v povezavi z verjetnostjo. V zgodovinskih pregledih razvoja statistike srečamo pomembne matematike, kot sta recimo Poisson ali Gauss, pa manj znana imena še vedno živečih (oz. do pred kratkim živečih) statistikov, kot sta recimo Rao in Fischer. Dejstvo, da so se s statistiko ukvarjali tako pomembni možje, in pa da je statistika živa še dandanes, nam da slutiti, da gre v ozadju za pomembne in zahtevne matematične probleme.
  • Ko pa se poglobimo v samo gimnazijsko snov, se srečamo z diagrami, tabelami in z računanjem parametrov, ki na kratko povzemajo obravnavano množico podatkov. Metode niso videti izrazito zahtevne in zdi se nam, da komaj še sodijo pod okrilje matematike. Najverjetneje ste mnogo tovrstne snovi srečali že v osnovni šoli, pa tudi v vsakdanjem življenju.


V tej mapici bomo poskusili razložiti naravo statistike in s tem pojasniti omenjeno protislovje.

Naprej

Delitev statistike

Statistiko lahko grobo razdelimo na dva velika dela in sicer na

  • opisno statistiko in
  • inferenčno statistiko.

Opisna statistika se ukvarja s predstavitvijo oz. povzemanjem pridobljenih podatkov. Množico informacij želimo obdelati in jih predstaviti na čim bolj nazoren in sežet način.

Inferenčna statistika raziskuje medsebojno povezanost določenih statističnih parametrov. Ukvarja se tudi z ugotavljanjem zanesljivosti sklepov, ki smo jih dobili tako, da nismo raziskali celotne populacije, pač pa samo njen manjši del, vzorec.

V ozadju inferenčne statistike so zahtevni in globoki matematični rezultati, ki so pretežki za gimnazijski nivo. Res pa je, da ravno ti rezultati omogočajo uporabo statistike na najrazličnejših področjih človekovega udejstvovanja, od fizike, do medicine in družboslovja. Opisna statistika pa je dostopnejša, zato se v naših razmišljanjih omejujemo pretežno nanjo.

Vprašanje

Še preden pa se usmerimo v vode opisne statistike, si oglejmo primer, na katerem bomo poskusili pojasniti nekaj v statistiki nastopajočih pojmov in poskusili zaslutiti nekaj potez opisne in inferenčne statistike.

Nazaj Naprej

Slike

Vprašanje

Na podlagi vsega povedanega med spodnjima trditvama izberi tisto, ki se ti zdi bliže resnici.

Statistika prinaša samo slikice za ilustracijo podatkov in z matematiko nima prave zveze.
V svojem bistvu je statistika globoko in zahtevno področje matematike.

Nazaj

Pravilno

Ni res. Znova si preberi zgornje odstavke.

Primer

V 4.B razredu Prve gimnazije želimo narediti raziskavo o telesni višini in telesni masi dijakov. Višino merimo v metrih, maso v kilogramih. Opravimo anketo med dijaki in rezultate uredimo v tabelo.

Tabela

Množica, ki jo statistično proučujemo, je množica dijakov, ki je v določenem šolskem letu obiskovala 4.B razred Prve gimnazije v nekem slovenskem kraju. Tej množici rečemo populacija. Vsak dijak zase je naša statistična enota. Lastnosti statistične enote (dijakov), ki jih v raziskavi opazujemo, so statistični podatki ali statistične spremenljivke. V našem primeru imamo dve statistični spremenljivki: telesno višino in telesno maso.

Naša raziskava bi lahko imela več različnih ciljev.

1. možni cilj

2. možni cilj

1. možni cilj

Lahko si zadamo za nalogo podatke čim lepše urediti in predstaviti. Tako lahko podatke o telesni višini

  • uredimo v ranžirno vrsto, od najmanjšega do največjega,
  • jih razdelimo v skupine in
  • predstavimo z bločnim diagramom.


2. možni cilj

Nazaj Naprej

2. Možni cilj

Drugi možni cilj naše raziskave bi bil povzeti značilnosti te populacije s čim manj podatki, da bi jo bilo lažje primerjati z značilnostmi kake druge populacije. Izračunali bi lahko aritmetično sredino in mediano telesnih višin in telesnih mas in jim določili medčetrtinski razmik ter standardni odklon. Vse to se bomo naučili v gradivih o sredinah in merah variabilnosti. Vsa omenjena vprašanja sodijo v okvir opisne statistike.

Zdaj pa si poglejmo še dve iz množice vprašanj, ki bi si jih ob tem naboru podatkov lahko zastavili v okviru interferenčne statistike.

  • Ali sta podatka o višini in masi med seboj tesno povezana? Ali lahko od višjih dijakov pričakujemo, da so praviloma tudi težji, ali pa tega sklepa ne smemo napraviti?
  • Denimo, da iz naše populacije na slepo izberemo predstavnikov in obravnavamo samo njihove podatke. Kaj lahko na tej podlagi rečemo o značilnostih celotne populacije?

1. možni cilj

Nazaj Naprej

Za radovedne - O značilni zvončasti obliki

(normal.bmp)

Oblika grafikona, ki smo ga dobili, je v statistiki zelo pogosta. Pripoveduje o tem, da ima večina dijakov 4.B razreda povprečne vrednosti telesne višine. Le malo je takih, ki po višini izrazito odstopajo navzgor ali navzdol.

V ozadju je tako imenovana normalna porazdelitev, ki jo opisuje tako imenovana Gaussova funkcija, katere graf vidimo na desni strani. Veliko naravnih pojavov je porazdeljenih na ta način. Če bi raziskovali težo odraslih afriških slonov, inteligenčni kvocient prebivalcev Moldavije ali pa obseg glave enomesečnih dojenčkov, bi vsakič dobili podobno sliko.

Gaussova funkcija zato v statistiki igra zelo pomembno vlogo.

Bočni diagram

(visina2.bmp)

Na vodoravno os nanesemo frekvenco, to je število elementov znotraj posameznega razreda.

Ranžirna vrsta telesnih višin

1,531,551,581,631,641,661,671,681,691,701,70
1,721,741,761,781,781,791,811,811,821,871,90

Tabela

ImeVišina [m]Masa [kg]
Andrej1,8275
Teja1,6864
Nika1,6651
Vesna1,7056
Alja1,7666
Špela1,6454
Maruša1,6660
Urška1,6961
ImeVišina [m]Masa [kg]
Nejc1,7476
Tomi1,8779
Metka1,5345
Uroš1,9081
Žan1,6355
Miha1,8167
Tadej1,7869
Urban1,7874
ImeVišina [m]Masa [kg]
Klemen1,7469
Brina1,5858
Doroteja1,7269
Anja1,6770
Veno1,8174
Tanja1,7059
Blaž1,7970
Alenka1,5558

Korelacija

Odgovor na prvo vprašanje o povezanosti dveh statističnih spremenljivk bi nam dalo število, ki ga imenujemo korelacijski koeficient. O tem se ne bomo pogovarjali natančneje, povejmo le, da je to število, ki ga na podlagi podatkov računalnk izračuna v hipu, in se vedno nahaja med in . Izkaže se, da v primeru, ko je to število blizu , lahko sklepamo, da sta spremenljivki tesno povezani: povečanje ene ima za posledico zelo verjetno povečanje druge. Če je število blizu , to pomeni, da sta spremenljivki obratno korelirani: povečanje ene ima za posledico zelo verjetno zmanjšanje druge. Če je število blizu , količini nista korelirani in težko rečemo, kakšen je trend ene pri povečanju druge.

Kot rečeno, se globlje ne bomo spuščali. Že do zdaj povedano pa daje slutiti, da bi obravnavana tematika utegnila biti pomembna pri najrazličnejših raziskavah, tako v naravoslovju, kot tudi v medicini in družboslovju.

Izračunali smo korelacijski koeficient telesne teže in telesne višine v zgornjem primeru. Glede na zgornja dva odstavka poskusi uganiti, kolikšen je ta korelacijski koeficient.

Preveri

Za radovedne

Nazaj Naprej

Za radovedne

(korel.bmp)

Korelacijski koeficient izračunamo s pomočjo računalniških programov. Udobna možnost je npr. Microsoftov Excel. Iz slike lahko razbereš, kakšen ukaz za to potrebuješ.

Ni res. Spomni se, da je korelacijski koeficient vedno med -1 in 1.

Res pričakuješ, da bodo manjši dijaki praviloma težji?

Ni res. Tako tesna povezava med količinama pa le ni.

Točno.

Ne, zveza je tesnejša.

BMI:indeks telesne mase

V zvezi s korelacijo omenimo še primer, ki bo nakazal praktično uporabo tovrstne teorije. Raziskovalci, ki so raziskovali prehrambene navade ljudi, so želeli podatek, ki bi pričal o prekomerni teži posameznega človeka. O tem bi npr. pričala količina podkožne maščobe. Seveda pa bi bilo potrebno v raziskavah tovrstno količino izmeriti na velikih vzorcih prebivalstva. Kasneje so znanstveniki odkrili, da obstaja podatek, ki je zelo tesno povezan (tj. zelo močno koreliran) s količino človekove maščobe. Ta podatek imenujemo indeks telesne mase (BMI = body mass indeks) in ga izračunamo takole:

kjer je m telesna masa v kilogramih in h telesna višina v metrih.

Ko enkrat to vemo, za raziskovanje debelosti ni več potrebno opraviti obsežnih dodatnih meritev, pač pa zadošča, če iz obstoječih podatkov o masi in višini izračunamo BMI.

Omenimo, da je pri običajnih ljudeh BMI nekje med in . Ljudje z BMI pod so podhranjeni. Na nekaterih modnih pistah, recimo v Madridu, celo velja pravilo, da manekenkam z BMI pod sploh ne dovolijo nastopa. Ljudje z BMI večjim od veljajo za debelejše, tisti z BMI večjim od pa za resno debele.

Primer za šalo

Preveri izjavi

Preveri izjavi

Zdaj pa preveri pravilnost naslednjih izjav:

  1. Med dijaki 4.B razreda iz 1.primera ima največji BMI najtežji dijak, to je Uroš.

  2. Vesna ima prenizek BMI, da bi lahko nastopala na madridskih modnih revijah.

Preveri

To pa ne bo držalo!

Odlično!

To pa ne bo držalo! Vesna ima BMI=19, kar ji še omogoča sodelovanje na modni reviji. Odlično! Vesna ima BMI=, kar ji še omogoča sodelovanje na modni reviji.

Odlično! Vesna ima BMI=, kar ji še omogoča sodelovanje na modni reviji.

Primer za šalo

(suhcena_showThumbnail.png) (sumo-competition-98.3Thumbnail.png)

Izračunaj si svoj lastni indeks BMI.

Če je ta pod , si lahko pobliže ogledaš levo sliko, sicer pa desno :).

Premisli!

Pri dani verjetnosti in danem vzorcu z elementi dobimo nek interval, na katerem z verjetnostjo leži parameter, ki ga opazujemo.

  • Če verjetnost povečamo, potem se bo interval

  • Če vzorec - torej število - povečamo, potem se bo interval

Preveri

Nazaj Tehtni nalogi

Pravilno

Naprej

Napačno

Oba odgovora sta napačna.

Napačno

Ni res. Manjši interval pomeni manjšo verjetnost, da bo naš podatek na intervalu. Mi pa želimo večjo verjetnost.

  • @close Napačno|nar5b*=

Ni res. Večji vzorec pomeni večjo gotovost v rezultat vzorca, zato pri isti verjetnosti dobimo manjši interval.

Tehtni nalogi

Kot primer dveh tehtnih nalog o vzorčenju navedimo naslednja dva problema:

  • Kako pri danem vzorcu in dani verjetnosti dobimo krajišči intervala , na katerem z dano verjetnostjo leži podatek glede celotne populacije, ki nas zanima.
  • Kako pri dani verjetnosti in dani širini intervala, na katerem z dano verjetnostjo leži obravnavani podatek glede celotne populacije, določimo velikost vzorca (število ), na katerem moramo opraviti raziskavo.

Odgovora na zastavljeni vprašanji nista preprosta. Omenjena problema navajamo le zato, da bi poleg opisne statistike, s katero se bomo ukvarjali v nadaljevanju, začutili obstoj tudi globljih vidikov statistike, v ozadju katerih sloni kar nekaj zahtevne matematike.

Nazaj Povzetek

Povzetek

Ponovimo:

Množica, ki jo statistično proučujemo, se imenuje populacija. Elementi populacije se imenujejo statistične enote. Včasih ne raziskujemo cele množice, pač pa samo neko slučajno izbrano podmožico. Taki podmnožici rečemo vzorec. Podmnožica je slučajno izbrana, če ima vsak element enako verjatnost, da bo izbran v vzorec. Lastnosti statistične enote, ki jih raziskujemo, imenujemo statistični podatek ali statistična spremenljivka.

Nazaj Dodatne naloge

Dodatne naloge

1. Naloga

Leta je bilo v Sloveniji približno naročnikov mobilnih telefonov. Naredimo statistično raziskavo, v kateri želimo izvedeti, kolikšni so okvirni mesečni stroški in kolikšna je starost naročnikov mobilnih telefonov v Sloveniji. V ta namen anketiramo 10.000 naključno izbranih uporabnikov.
(a)

  • Kaj je v konkretnem primeru statistična populacija?

  • Kaj je v konkretnem primeru statistična enota?

  • Kaj meritastatistični spremenljivki.


Preveri




Pravilno

Naprej

Napačno

Pravilno si odgovoril na od treh vprašanj.

Dodatne naloge

1. Naloga

Leta je bilo v Sloveniji približno naročnikov mobilnih telefonov. Naredimo statistično raziskavo, v kateri želimo izvedeti, kolikšni so okvirni mesečni stroški in kolikšna je starost naročnikov mobilnih telefonov v Sloveniji. V ta namen anketiramo 10.000 naključno izbranih uporabnikov.
(b)

  • Na koliko načinov lahko iz populacije izberemo vzorec?

  • Kaj misliš, ali število možnosti presega število ljudi na zemlji?

Preveri





Pravilno

Naprej

Napačno

Število seveda krepko presega število ljudi na zemlji. S programom Derive lahko izračunamo, da je to število večje od Pripomnimo, da je zdajšnja ocena za število vseh atomov v vesolju približno .

Napačno

Dodatne naloge

2. Naloga

Neka druga evropska raziskava prinaša število uporabnikov mobilne telefonije na prebivalcev v letu v državah, ki so bile avgusta članice Evropske unije.
(a)

  • Kaj je tokrat statistična populacija?

  • Kaj je tokrat statistična enota?

  • Kaj je tokrat statistična spremenljivka?

Preveri





Pravilno

Naprej

Napačno

Pravilno si odgovoril na od treh vprašanj.

Dodatne naloge

2. Naloga

Neka druga evropska raziskava prinaša število uporabnikov mobilne telefonije na prebivalcev v letu v državah, ki so bile avgusta članice Evropske unije.
(b)

Koliko enot ima tokrat populacija?

Preveri





Pravilno

Naprej

Napačno

Dodatne naloge

2. Naloga

Neka druga evropska raziskava prinaša število uporabnikov mobilne telefonije na prebivalcev v letu v državah, ki so bile avgusta članice Evropske unije.
(c)

  • Kolikšna je največja možna vrednost statistične spremenljivke?
  • Kolikšna je najmanjša možna vrednost statistične spremenljivke?

Preveri





Pravilno

Naprej

Napačno

Napačno

Verjetno si zamešal odgovora. (najmanjši, največji)

Dodatne naloge

2. Naloga

Neka druga evropska raziskava prinaša število uporabnikov mobilne telefonije na prebivalcev v letu v državah, ki so bile avgusta članice Evropske unije.
(d)

Kolikšna je dejanska vrednost statistične spremenljivke za Slovenijo.

Preveri





Pravilno

Naprej

Napačno

Dodatne naloge

2. Naloga

Neka druga evropska raziskava prinaša število uporabnikov mobilne telefonije na prebivalcev v letu v državah, ki so bile avgusta članice Evropske unije.
(e)

Poskusi uganiti, kolikšna bi bila po tvojem občutku ta vrednost za:

  • Luksemburg
  • Grčijo
  • Poljsko

Preveri

Odgovor





Pravilno

Napačno

Pri Luksenburgu je vrednost manjša.

Napačno

Pri Grčiji je vrednost manjša.

Napačno

Pri Poljski je vrednost manjša.

Napačno

Pri Luksenburgu je vrednost večja.

Napačno

Pri Grčiji je vrednost večja.

Napačno

Pri Poljska je vrednost večja.

Odgovori

  • Za Luksenburg je 97.
  • Za Grčijo je 75.
  • za Poljsko je 26.

Naprej

Dodatne naloge

2. Naloga

Neka druga evropska raziskava prinaša število uporabnikov mobilne telefonije na prebivalcev v letu v državah, ki so bile avgusta članice Evropske unije.
(f)

Naštej kako državo, članico EU, ki ne sodi v obravano statistično populacijo.

Možen odgovor




Možen odgovor

Romunija in Bolgarija sta postali članici EU leta .

Konec

0%
0%