Predstavitev orodja: Orange

Predstavitev orodja: Orange

Avtor: Tjaša Dragar

Kaj je program Orange?

(orange.jpg)

Program Orange je odprto kodni program namenjen predvsem podatkovnemu rudarjenju.

Odprto kodni program je program, katerega izvorna koda je izdana pod zaščitno licenco, ki ustreza kriterijem Open Source Initiative(OSI). Ta dovoljuje prost dostop do kode, vsakršno uporabo in spreminjanje, njeno razširjanje v spremenjeni ali nespremenjeni obliki. Pogosto odprto kodnost povezujemo z brezplačnostjo, vendar pa to ni nujno res. Nikjer v licenci OSI ne piše, da je kak program ali njegov del prepovedano prodajati. In če nekaj ni prepovedano, je dovoljeno. Torej je odprtokodni program mogoče tudi prodajati, a se to zgodi le redko. (Vir:www.coks.si-Center odprte kode Slovenije)

Podatkovno rudarjenje ("data mining") je sistematično iskanje informacij v veliki količini podatkov.

Dostopnost programa

Program Orange je prosto dostopen na spodnji povezavi:

http://orange.biolab.si

S klikom na zgornjo povezavo vidite približno tak izgled strani:

(orange1.PNG)

Glede na vaš operacijski sistem izberete ustrezno različico. Skupaj s programom Orange dobite tudi vse potrebne knjižnice(Python 2.6., PythonWin, NumPy, PyQt, PyQwt...).

V primeru, da na računalniku že imate nameščen Python, izberete možnost Orange for Python 2.5./2.7.).

Program se namreč lahko uporablja z lepim uporabniškim vmesnikom, za naprednejše uporabnike pa lahko tudi kot modul v Python programskem jeziku.

v nadaljevanju se bom osredotočila le na uporabo programa Orange preko uporabniškega vmesnika.

Uporaba programa

Ko uspešno zaključimo z namestitvijo programa, ga zaženemo.

Če smo pri namestitvi izbrali, da naj se ustvari ikona, na zaslonu kliknemo na spodnjo ikono:

(orange2.PNG)

Odpre se nam Orange "platno":

(orange3.PNG)

Če bomo želeli delati analize na podatkih, bo potrebno najprej te podatke pridobiti. Najpogosteje podatke hranimo v datotekah. Poglejmo si kako uvozimo podatke iz datoteke:

  • V zavihku Data izberemo možnost File. S klikom na gumb File se nam le-ta doda v shemo:
(orange4.PNG)
  • Z dvoklikom na gumb File v shemi se nam odprejo možnosti za uvoz podatkov iz datoteke:
(orange5.PNG)
  • S klikom na ... na disku poiščemo ustrezeno datoteko.
  • S klikom na Reload naložimo to datoteko.
  • V razdelku Info pa imamo informacije o podatkih, ki jih želimo uporabiti(števio vseh podatkov, število atributov itd.).

Pomembna je struktura datoteke iz katere želimo uvoziti podatke:

  • Podatki morajo biti v posamezni vrstici ločeni s Tab(lahko tudi vejico)
  • prva vrstica datoteke vsebuje imena atributov oziroma razredov
  • druga vrstica datoteke vsebuje podatke o tipih atributov(discrete-diskreten ali continouos-zvezen)
  • tretja vrstica ni obvezna, v njej lahko podamo dodaten opis atributov, kot npr. ignore za atribute, ki jih ne želimo upoštevati pri analizi.
  • preostale vrstice pa vsebujejo podatke
  • Največkrat se v programu Orange za uvoz podatkov uporabljajo datoteke .tab.
  • Primer datoteke, ki ustreza zgornjim zahtevam:
(orange 6.PNG)
  • Pogosto datoteko za uvoz podatkov pripravimo v Excelu. Podatke ločimo v posamezne stolpce, datoteko pa shranimo kot .tab:
(orange7.PNG)
  • Ko enkrat imamo podatke lahko na teh podatkih delamo poljubne analize. To naredimo tako, da izberemo enega od možnih gumbov v orodni vrstici. S klikom na gumb se nam doda v shemo. Gumbe povežemo med seboj(npr. podatke in tabelo). Z dvoklikom na gumbe v shemi dobimo prikaz ustrezne analize podatkov(tabela, grafikon, izbira podatkov, itd...):

    (orange8.PNG)

Več o možnostih analiziranja in vizualizacije podatkov v programu Orange(razlaga vseh možnih gumbov v orodni vrstici):

Orange catalog

Zgled

Poglejmo si uporabo programa Orange še na konkretnem zgledu.

Denimo, da želimo narediti analizo podatkov, ki se nahaja v spodnji datoteki:

Spol, barva las, barva oči

V tej datoteki imamo 584 podatkov razdeljenih glede na 3 atribute(diskretne); to so spol, barva las in barva oči.

Odpremo program Orange in odpre se nam Orange platno. V shemo dodamo File in naložimo zgornjo datoteko.

Denimo, da bi najprej radi videli tabelo z vsemi podatki:

(orange9.PNG)

Izberemo Data Table, povežemo ikoni, ter dvakrat kliknemo na Data Table ter dobimo rezultat:

(orange10.PNG)

Želimo prikaz teh podatkov v histogramu:

(a.PNG)

Denimo, da ne bi radi delali z vsemi podatki, ampak le z nekaj izbranimi, npr. le s podatki o barvi las in oči oseb, ki so moškega spola. V shemo dodamo Select Data in to ikono povežemo z ikono File, kjer se nahajajo vsi podatki:

(orange11.PNG)

Nato dvakrat kliknemo na ikono Select Data in izberemo podatke, ki jih želimo vključiti v nadaljno analizo; izberemo samo podatke kjer je sex(spol) equals(enak) m(moškemu). Vidimo da s tem dobimo 279 podatkov, ki ustrezajo zgornji zahtevi.

(orange12.PNG)

Na teh podatkih želimo narediti statistiko atributov:

(orange13.PNG)

Dobimo rezultat kakšna je zastopanost posameznih vrednosti atributov(barve las in barve oči) pri osebah moškega spola:

(orange14.PNG) (orange15.PNG)

Denimo, da nas na celotnem vzorcu podatkov zanima še podatek o tem, kako so vrednosti posameznih atributov(spola, barve las in oči) povezani med seboj. Izberemo možnost Parallel Coordinates ter to povežemo z File:

(orange16.PNG)

Dobimo rezultat:

(orange17.PNG)

Na podoben način bi lahko naredili še druge analize in vizualizacije podatkov.

Shema, ki je opisana zgoraj, je dosegljiva na: Orange shema zgleda

0%
0%