• Tidak ada hasil yang ditemukan

Podatkovno skladišče in kvaliteta podatkov : diplomsko delo univerzitetnega študija

N/A
N/A
Protected

Academic year: 2021

Membagikan "Podatkovno skladišče in kvaliteta podatkov : diplomsko delo univerzitetnega študija"

Copied!
58
0
0

Teks penuh

(1)UNIVERZA V MARIBORU FAKULTETA ZA ORGANIZACIJSKE VEDE. Diplomsko delo univerzitetnega študija Smer: Organizacijska informatika. PODATKOVNO SKLADIŠČE IN KVALITETA PODATKOV. Mentor: red. prof. dr. Vladislav Rajkovič. Kranj, oktober 2007. Kandidat: Anton Vehar.

(2) POVZETEK Sprejemanje odločitev zahteva popolne in pravočasne informacije. Izhodišče hitrih in pravilnih odločitev so informacije, ki so nam v določenem trenutku na voljo. Da bi iz podatkov, ki nastajajo med poslovanjem, dobili čim večje število koristnih informacij, morajo biti podatki ustrezno shranjeni, urejeni in dostopni. Za ta namen se uporabljajo podatkovna skladišča, ki združujejo podatke iz različnih virov. Od podatkovnih skladišč se tako pričakuje, da bodo vsebovala kakovostne podatke. Za doseganje kakovostnih podatkov v podatkovnih skladiščih je na voljo več možnih pristopov. Nedvomno nam je tehnologija lahko pri tem v veliko pomoč, ni pa vse odvisno le od nje. Vse se začne že v okviru samega načrtovanja podatkovnega skladišča, nikakor pa se tukaj tudi ne konča. Zagotavljanje kakovosti podatkov ni enkraten poseg oziroma projekt. Je proces, ki traja skozi življenjski cikel podatkovnega skladišča. Vključuje več dejavnikov, katere je potrebno upoštevati za zagotovitev uspeha. Poleg tega ne gre pozabiti tudi na netehnološko stran, to je na vpletene ljudi in proces oziroma organizacijski pristop. V diplomski nalogi so predstavljeni vidiki kvalitete podatkov v podatkovnih skladiščih.. KLJUČNE BESEDE -. podatkovna skladišča, kakovost podatkov, upravljanje kakovosti. ABSTRACT Decision making requires complete and up to date information. Basis for fast and proper decisions are information that are available at a certain time. In order to get as much useful information from the data, that origin from operations, data has to be adequately stored, ordered and accessible. For this purposes data warehouses are used, since they merge data from different sources. It is required from data warehouses that it will contain quality data. To attain data quality there are several ways to. Certainly technology is of great help, but it is not all dependent from technology only. It all starts within the framework of planning of data warehouse, nevertheless does not stops here. Assuring data quality is not one time intervention or project. It is a process, that last thought data ware house life cycle. It includes more factors, which has to be considered in order to achieve success. Besides that not to be forgot are also non technological sides, which are involved people and processes or organizational approach. In diploma aspects of data quality in data warehouses are introduced.. KEYWORDS -. data warehouse, data quality, quality management.

(3) KAZALO 1 UVOD............................................................................................................................2 1.1 Opis problematike...................................................................................................3 1.2 Namen in cilj diplomskega dela ..............................................................................3 1.3 MetodA IN STRUKTURA dela................................................................................4 2 RAZVOJ IN VLOGA PODATKOVNIH SKLADIŠČ ......................................................5 2.1 Opredelitev in elementi podatkovnih skladišč.........................................................6 2.1.1 Arhitektura podatkovnih skladišč ...................................................................10 2.1.2 Polnjenje podatkovnih skladišč ......................................................................13 2.2 Razvoj podatkovnih skladišč ................................................................................15 2.3 Uporaba podatkovnih skladišč danes...................................................................17 2.4 Vpliv slabe kakovosti podatkov na podatkovno skladišče ....................................18 3 KVALITETA PODATKOV V PODATKOVNIH SKLADIŠČIH.....................................20 3.1 Definicija kvalitete podatkov .................................................................................21 3.2 Vzroki nekakovostnih podatkov v podatkovnem skladišču...................................23 3.3 Polnjenje podatkov v podatkovno skladišče in vpliv na kakovost.........................25 3.4 Načini odkrivanja napak v podatkovnem skladišču ..............................................26 3.4.1 Napake odkrite pri procesu polnjenja.............................................................27 3.4.2 Napake odkrite pri uporabi podatkov .............................................................27 3.4.3 Napake odkrite v okviru sistematične kontrole podatkov ...............................28 3.4.4 Napake pri podrobnejših analizah ali pripravi podatkovnih tržnic ..................28 4 MOŽNOSTI KVALITETE PODATKOV V PODATKOVNIH SKLADIŠČIH.................30 4.1 Zagotavljanje kvalitete ..........................................................................................30 4.1.1 Načrtovanje kvalitete......................................................................................31 4.1.2 Odkrivanje napak ...........................................................................................33 4.1.3 Popravljanje podatkov....................................................................................34 4.1.4 Preprečevanje napak .....................................................................................37 4.1.5 Kontroliranje kakovosti...................................................................................38 4.1.6 Spremljanje kvalitete......................................................................................42 4.2 Vloga procesov in ljudi..........................................................................................43 4.3 Upravljanje z matičnimi podatki ............................................................................45 4.4 Ekonomika kvalitete..............................................................................................48 4.5 Koliko kakovosti....................................................................................................49 5 KRITIČNI DEJAVNIKI ................................................................................................51 6 ZAKLJUČEK ..............................................................................................................53 LITERATURA IN VIRI....................................................................................................54 SEZNAM SLIK...............................................................................................................56.

(4) Univerza v Mariboru - Fakulteta za organizacijske vede. Diplomsko delo univerzitetnega študija. 1 UVOD Uspeh podjetja je odvisen od sprejemanja pravočasnih in pravih odločitev. V času industrializacije je veljalo, da uspeh zahteva vlaganje v tehnologijo za izdelavo končnih izdelkov. Nenehen razvoj proizvodne tehnologije in čim večji obseg proizvodnje sta bili garanciji za uspeh. Napredek je prinesel večjo povezanost svetovnega gospodarstva. Lokalno je postalo globalno, konkurenca je postala vse ostrejša in kupci vedno zahtevnejši. Zgolj proizvodne zmogljivosti ne odločajo več o konkurenčni prednosti. Kupcem je potrebno ponuditi ustrezno kakovost izdelkov ali storitev, novosti in pestrost v ponudbi, sprejemljivo ceno in podobno. Potrebno je torej poznati trenutne razmere na trgu, poznati stranke in njihove navade, predvideti odzive na trgu ipd. Dandanes se uspešna podjetja se od drugih razlikujejo tudi po tem, da se na spremembe v okolju čim prej in pravilno odzovejo. Hiter in enostaven dostop do zanesljivih in uporabnih informacij predstavlja konkurenčno prednost, ki je včasih lahko celo odločilnega pomena. Informacije tako omogočajo usmerjanje procesov in identifikacijo poslovnih priložnosti ali nevarnosti. Večina procesov v podjetjih je informacijsko podprta in v različnih informacijskih sistemih se hrani mnogo podatkov o strankah, izdelkih, storitvah, poslovanju, uspešnosti podjetja ipd. V zadnjem času se tako vse več podjetij zaveda, da je potrebno zbrane podatke, zapisane uporabiti za podporo pri poslovnem odločanju. Za te namene največkrat uporabljena rešitev je izgradnja podatkovnega skladišča. Gradnja tega postaja čedalje bolj samoumevna in je eden izmed obveznih delov informacijske podpore v procesu poročanja in odločanja. Podatkovno skladišče je lahko uporabljeno na več načinov, zlasti zato ker združuje podatke z različnih virov podatkov, kar pomeni, da je temu primerno tudi število uporabnikov. V splošnem je namen podatkovnega skladišča: • dostop do podatkov iz različnih virov, • zgodovinski podatki, • enoten vir za poročanje, • enostavnost uporabe podatkov, • podpora za odločanje, • vir podatkov za analize, • baza znanja, • razbremenitev transakcijskih sistemov, • boljša kakovost podatkov, podatki so poenoteni in prečiščeni. Sodoben informacijski sistem je tako dandanes nujen za podporo odločanju in predstavlja konkurenčno prednost, saj hitre in pravilne odločitve temeljijo na informacijah, ki so v določenem trenutku na voljo. Kljub vsej informacijski podpori, pa se še vedno dogaja, da ob pravem času ni na voljo pravih informacij.. Anton Vehar: Podatkovno skladišče in kvaliteta podatkov. stran 2 od 56.

(5) Univerza v Mariboru - Fakulteta za organizacijske vede. Diplomsko delo univerzitetnega študija. 1.1 OPIS PROBLEMATIKE Sprejemanje odločitev zahteva popolne in pravočasne informacije, kajti samo take omogočajo sprejemanje odločitev na strateškem in taktičnem nivoju ter merjenje učinkovitosti. Tehnologija podatkovnih skladišč omogoča hiter in enostaven dostop do podatkov ne glede na to, kje in v kakšni obliki so. Na voljo so tudi orodja za razumevanje podatkov in njihovo preoblikovanje v informacije ter vizualizacijo za učinkovito uporabo. Omogočeno je tudi izmenjavanje informacij tako znotraj organizacije kot izven nje in distribucija podatkov preko različnih načinov. Zadnja leta se z uvedbo celovitih uporabniških rešitev in razvojem tehnologij eksponentno veča količina podatkov, ki se meri že v desetinah terabajtov. Hkrati z večanjem količine podatkov se povečuje tudi vsebina in kompleksnost podatkov. Vse to se z razvojem tehnologije dogaja v bistveno krajših časovnih obdobjih. Vsemu temu se morajo prilagajati tudi podatkovna skladišča, kar je pravzaprav iz navedenih razlogov vedno težje. Glede na značilnost podatkovnih skladišč in namen uporabe je kakovost podatkov v njem bistvenega pomena tako za uspeh podatkovnega skladišča kot tudi za ustvarjanje pravih informacij. V današnjem času hitrih tržnih sprememb, ko je ekonomija močno podprta z informacijsko tehnologijo, je izredno pomembno, da so podjetja sposobna hitro povezati, prečistiti in poenotiti velike količine podatkov, ki so v najrazličnejših razpršenih in heterogenih sistemih. Pri tem ima tudi zagotavljanje kakovosti pomembno vlogo.. 1.2 NAMEN IN CILJ DIPLOMSKEGA DELA Skladišča podatkov dostikrat pravzaprav nikoli niso dokončana. Skladiščenje podatkov je namreč proces, ki ga je potrebno nenehno prilagajati zahtevam na trgu, načinu poslovanja in vedno zahtevnejšim potrebam strank. Uvedba pa zahteva poglobljeno tehnično znanje ter izkušnje na področju razvoja skladišč podatkov in sistemov za podporo odločanju. V literaturi beremo, da približno 40 odstotkov projektov gradnje podatkovnega skladišča ni nikoli dokončanih oziroma sprejetih v uporabo v celoti. Med končanimi pa jih 30 odstotkov ne izpolni pričakovanj oziroma ne predstavljajo pričakovane poslovne vrednosti, iz katere bi se upravičili stroški razvoja. Eden od pogojev, da podatkovno skladišče zaživi, je tudi kakovost podatkov v podatkovnem skladišču ter zaupanje uporabnikov v podatkovno skladišče. Postopek čiščenja podatkov povratno vpliva na pravila vnašanja podatkov v transakcijskem okolju, kar zagotavlja kakovostnejše izvorne podatke. V diplomskem delu je izpostavljena pomembnost kvalitete podatkov v podatkovnih skladiščih in nekaj načinov za doseganje boljše kvalitete podatkov. Glede na osnovni namen in specifične značilnosti podatkovnih skladišč se bomo ukvarjali tudi z. Anton Vehar: Podatkovno skladišče in kvaliteta podatkov. stran 3 od 56.

(6) Univerza v Mariboru - Fakulteta za organizacijske vede. Diplomsko delo univerzitetnega študija. vprašanjem koliko kvalitete, je sploh smotrno pričakovati od podatkovnih skladišč in na kakšen način. Za doseganje kvalitete podatkov je namreč potrebno upoštevati več vidikov in ne le kaj nam ponuja tehnologija sama po sebi.. 1.3 METODA IN STRUKTURA DELA Diplomsko delo temelji na proučevanju literature tujih avtorjev, saj to področje, trenutno še ni podrobneje opisano s strani domačih avtorjev. V drugem delu podajam nekaj vidikov možnih rešitev ter se opiram na literaturo tujih avtorjev, zadnjih spoznanj s tega področja in na lastne izkušnje s področja dela s podatkovnimi skladišči. Celotna diplomska naloga tako prikazuje teoretična in deloma tudi praktična spoznanja s področja podatkovnih skladišč in kvalitete podatkov. Diplomsko delo je razdeljeno na šest poglavij. Po uvodnem je v drugem poglavju opisan razvoj, vloga in današnji pomen podatkovnih skladišč. Podrobneje je predstavljena arhitektura, zgradba in polnjenje podatkovnih skladišč. Tretje poglavje je predstavitev kvalitete podatkov v podatkovnih skladiščih. Najprej je opredeljena kvaliteta podatkov v podatkovnih skladiščih in njen pomen. Kasneje so predstavljeni vzroki za pojav nekakovostnih podatkov in posledice, ki jih imamo zaradi tega. Četrto poglavje je posvečeno upravljanju in zagotavljanju kvalitete podatkov. Nanaša se na vidike tehnologije, procesov in ljudi. Opisani so načini in metode zagotavljanja kvalitetnih podatkov v podatkovnem skladišču, gledano iz različnih vidikov. Opisano je še nekaj možnosti izboljšanja kvalitete in upoštevan tudi pomen ekonomike. V predzadnjem poglavju so opisani kritični dejavniki in smernice, ki vplivajo na zagotavljanje kvalitetnih podatkov v podatkovnih skladiščih, in sicer z vidika procesov, ljudi in tehnologije. V zadnjem poglavju pa so podani zaključki.. Anton Vehar: Podatkovno skladišče in kvaliteta podatkov. stran 4 od 56.

(7) Univerza v Mariboru - Fakulteta za organizacijske vede. Diplomsko delo univerzitetnega študija. 2 RAZVOJ IN VLOGA PODATKOVNIH SKLADIŠČ Namen upravljanja poslovnega sistema je doseganje njegovih ciljev, kot so finančna uspešnost, kakovosti proizvodov in storitev, izpolnjevanje rokov ter fleksibilnost v smislu prilagajanja poslovnega sistema novo nastalim položajem. Tako kompleksno upravljanje, ki zahteva številne odgovorne odločitve lahko izvaja le človek. Pri tem pa si lahko bistveno pomaga z ustreznimi informacijami, ki mu jih nudi informacijski sistem. Ta pa zajema podatke tako iz svojega poslovnega sistema, kakor tudi iz širšega okolja (Rajkovič, 2004). Podatki sami po sebi še ne predstavljajo informacije. Dandanes že skoraj vsa podjetja razpolagajo z ogromnimi količinami podatkov, shranjenih v razpršenih in heterogenih sistemih, delujočih na različnih platformah in po navadi ne medsebojno povezljivih. Le z združevanjem, urejanjem in organiziranjem podatkov lahko pridemo do pravih poslovnih informacij, nujnih za sprejemanje pravih odločitev. Informacijski sistemi na operativnem nivoju, največkrat ne zagotavljajo takšnega dostopa do podatkov in njihove uporabe. Podatki iz operativnih sistemov namreč niso namenjeni za podporo odločitvenim procesom v organizaciji, saj je njihov cilj omogočati učinkovito opravljanje vsakodnevnih opravil v organizaciji. Ker je pridobivanje informacij za potrebe odločitvenih procesov običajno vezano tudi na obdelavo velikih količin zgodovinskih podatkov, bi to predstavljalo tudi prehude obremenitve operativnih sistemov, kar bi slabo vplivalo na izpolnjevanje osnovnih zahtev operativnih sistemov. Da bi iz operativnih sistemov dobili čim večje število koristnih informacij, morajo biti podatki temu primerno shranjeni, urejeni in dostopni. To omogoča podatkovno skladišče, ki združuje podatke iz različnih virov in je potemtakem najprimernejša osnova za učinkovito poslovno obveščanje. Vloga podatkovnega skladišča v procesu upravljanja poslovnega sistema, je prikazana na sliki 1, na kateri je vloga prikazana kot vez med informacijskim sistemom in uporabniki, ki so dnevno postavljeni v vlogo odločanja.. Slika 1: Vloga podatkovnega skladišča v procesu upravljanja poslovnega sistema (Vir: Rajkovič, 2004). Anton Vehar: Podatkovno skladišče in kvaliteta podatkov. stran 5 od 56.

(8) Univerza v Mariboru - Fakulteta za organizacijske vede. Diplomsko delo univerzitetnega študija. Izvorni sistemi so namenjeni operativnim obdelavam, medtem ko je podatkovno skladišče namenjeno analitičnim obdelavam. Podatkovno skladišče je torej informacijska infrastruktura, ki omogoča integracijo razpršenih in heterogenih podatkovnih virov v enovito strukturo. Služi kot osnova za nadaljnjo uporabo s pomočjo orodij za poslovno poročanje in odločanje.. 2.1 OPREDELITEV IN ELEMENTI PODATKOVNIH SKLADIŠČ Posredno smo podatkovna skladišča že definirali in v splošnem bi lahko dejali, da so to zbirke podatkov, za katere je značilno, da so vsi podatki smiselno strukturirani in urejeni, dostopni le na enem mestu ter optimizirani tako, da omogočajo učinkovite in pravočasne poizvedbe po podatkih. Za podatkovno skladišče (ang. Data Warehouse) obstaja več definicij. V Leksikonu računalništva in informatike najdemo termin skladišče podatkov (Pahor, 2002): »1. Skladišče podatkov je v najširšem smislu oznaka za računalniški sistem, namenjen shranjevanju, pregledovanju in upravljanju velikih količin podatkov poljubne vrste. V skladiščih podatkov so po navadi zapleteni mehanizmi za stiskanje in zapisovanje, hitro izvajanje poizvedb in uporabo zahtevnih filtrov. 2. Zbirka podatkov, pogosto na oddaljenem kraju, s prepisom najnovejših podatkov o delovanju podjetja. Načrtovalci in raziskovalci jo lahko poljubno uporabljajo, ne da bi zaradi tega upočasnili delo z glavno zbirko.« Pionirja teorije podatkovnih skladišč in svetovno priznana strokovnjaka sta William H. Inmon in Ralph Kimball. William Inmon je ustvaril ime »podatkovno skladiščenje«, njegov arhitekturni pristop se imenuje »Corporate Information Factory« in »Government Information Factory«. Pred časom pa je predstavil tudi DW 2.0, kot naslednjo generacijo arhitekture podatkovnih skladišč. Ralph Kimball na drugi strani pa zagovarja arhitekturni pristop »Data Warehouse Bus Architecture«. Na področju podatkovnih skladišč, pogosto zasledimo razprave na temo po katerem principu uvrstiti določena podatkovna skladišča glede na stališča, ki jih zavzemata Kimball in Inmon. Spodaj je opisana razlika med njima. Zgled Bill Inmon: Podatkovno skladišče je en in celovit sistem za podporo odločanju v podjetju. Podjetje ima eno podatkovno skladišče in iz tega izpeljana področna ali posebna podatkovna skladišča ali tržnice (ang. data marts). Informacije so v podatkovnem skladišču zapisane v tretji normalni obliki. »Podatkovno skladišče je vsebinsko usmerjena, integrirana, časovno odvisna in statična zbirka podatkov, namenjena podpori v poslovnem odločanju.« Zgled Ralph Kimball: Podatkovno skladišče je skupek vseh področnih podatkovnih skladišč v podjetju. Informacije so vedno shranjene v dimenzijski model. »Podatkovno skladišče je posnetek transakcijskih podatkov, strukturiranih na tak način, da je primerno za uporabo pri analizi podatkov.«. Anton Vehar: Podatkovno skladišče in kvaliteta podatkov. stran 6 od 56.

(9) Univerza v Mariboru - Fakulteta za organizacijske vede. Diplomsko delo univerzitetnega študija. Med omenjenima idejama ni prave in napačne, saj predstavljata le drugačne pristope k izgradnji podatkovnih skladišč. V praksi so podatkovna skladišča največkrat bližje ideji Ralpha Kimballa. To je zaradi razloga, ker so podatkovna skladišča največkrat načrtovana kot posledica potreb posameznih oddelkov. Šele kasneje se področna podatkovna skladišča razvijejo v celovito podatkovno skladišče. V literaturi najdemo tudi termin področno podatkovno skladišče ali podatkovna tržnica. Kimball ga obravnava kot podenoto podatkovnega skladišča, ki navadno obsega rezultat dejavnosti enega poslovnega področja in sestavlja celotni poslovni proces. Podatkovno skladišče je tako unija vseh področnih podatkovnih skladišč (Kimball, 1998). Inmon kot glavni kritik Kimballovega pristopa pa pravi, da so podatkovna skladišča kot unija področnih podatkovnih skladišč le modni trend proizvajalcev in da je nemogoče zbrati vsa področna podatkovna skladišča v eno unijo in trditi, da je to podatkovno skladišče. Poleg tega so področna podatkovna skladišča področno neodvisna in zato hitrejša. Podatkovno skladišče predstavlja le integrirano celoto področnih podatkovnih skladišč. S pojmom podatkovno skladišče označujemo zbirko podatkov, namenjeno shranjevanju, zbiranju, poročanju in analizi podatkov. Podatkovno skladišče je fizično ločena zbirka podatkov, ki se polni z orodji, ki podatke iz operativnih baz in najrazličnejših virov podatkov prenesejo, preoblikujejo in napolnijo v podatkovno skladišče. Uveljavilo se je kot mehanizem, s katerim se podatki različnih sistemov združijo v enotno zbirko podatkov, se obravnavajo enotno in so dostopni vsem pooblaščenim uporabnikom. Podatkovna skladišča omogočajo hranjenje zgodovinskih podatkov. Poleg podatkov iz poslovnih informacijskih sistemov podjetja je v podatkovno skladišče mogoče prenesti tudi podatke, pridobljene iz različnih zunanjih virov. Pri tem gre lahko za podatkovno skladišče v širšem pomenu besede, t. j. celovito podatkovno skladišče podjetja (ang. Enterprise Data Warehouse) ali manjše specializirano oziroma področno podatkovno skladišče (ang. Data Mart), namenjeno uporabi v ozko določenem poslovnem področju. Na splošno lahko podatkovno skladišče opredelimo kot zbirko podatkov, za katero velja, da je po značilnosti (Inmon, 1996): • predmetno usmerjena, • integrirana, • nespremenljiva in • časovno dimenzionirana. Predmetno usmerjena Podatki so organizirani po poslovnih področjih okrog glavnih entitet podjetja. Podatki tako nudijo informacije o posameznih poslovnih entitetah, za razliko od operativnih sistemov, kjer podatki zagotavljajo le informacije o procesih, ki se izvajajo. Organizacija podatkovnega skladišča torej temelji na glavnih entitetah podjetja (npr.: stranka,. Anton Vehar: Podatkovno skladišče in kvaliteta podatkov. stran 7 od 56.

(10) Univerza v Mariboru - Fakulteta za organizacijske vede. Diplomsko delo univerzitetnega študija. izdelek, regija, račun,…) in ne na funkcionalnih področjih oz. področjih, ki jih pokrivajo posamezni transakcijski sistemi. Integrirana Podatkovno skladišče vsebuje različne, včasih celo nezdružljive podatke v konsistentni obliki. Namen integracije izhaja iz potrebe po zagotavljanju celovitega in enotnega vira podatkov v praksi. Integracija je proces povezovanja različnih vrednosti v skupno bazo podatkov, razvijanja skladnih podatkovnih elementov in dostavljivosti standardiziranih podatkov na splošno kolikor je to mogoče. Nespremenljiva Nespremenljivost je bistvenega pomena. Pomeni dobesedno, da se enkrat zapisan podatek v podatkovno skladišče, praviloma nikoli več ne spreminja. To je potrebno, da se ohrani informacija o zgodovini z dodajanjem novih zapisov. Če se zapis spremeni, se namreč s tem določena informacija uniči. Časovno dimenzionirana Vsebuje zgodovinske podatke, ki so pomembni za poslovne analize in odkrivanje trendov. V primerjavi glede na operativne sisteme gre za velike količine podatkov, medtem ko na operativnih sistemih zaradi učinkovitosti ti podatki niso ohranjeni. Časovna dimenzija se nanaša na časovni trenutek, zato vsebujejo zaznamek časa. Časovni okvir je v podatkovnem skladišču dolgoročen. Podatkovno skladišče se od običajnih transakcijskih sistemov bistveno razlikuje glede na namen in področja uporabe. Za transakcijske sisteme je značilno, da jih uporabljajo operaterji za branje in zapisovanje posameznih zapisov, kjer so podatki detajlni, pravočasni in enodimenzijski. Podatkovna skladišča pa uporabljajo uporabniki nad večjimi količinami podatkov za poročanje, analize in podporo odločanju ter dostopajo do sumiranih, zgodovinskih in večdimenzijskih podatkov. Razlika je tudi glede delovanja in prilagoditve tehnologije. Pri transakcijskih sistemih je tako velikost podatkovne baze manjša, podatki se hranijo za operativne potrebe, obseg delovanja je vezan na določeno poslovno področje ali sistem, medtem ko pri podatkovnih skladiščih so podatkovne baze veliko večje, podatki se hranijo za celotno zgodovinsko obdobje in so podatki integrirani iz vseh razpoložljivih in razpršenih virov. Podatkovna skladišča so optimizirana za redkejše in hitre dostope do večjih količin podatkov, delovanje mora biti zagotovljeno znotraj običajnega delovnega časa, dizajn je praviloma prilagodljiv. Pri transakcijskih sistemih pa se zahteva hiter dostop do posameznih zapisov z možnostjo popravljanja, visoko razpoložljivost brez izpadov in je dizajn prilagojen, tako da zagotavlja visoko zanesljivost. Podatkovno skladišče v osnovi predstavlja podatkovna baza, vendar je z vidika priprave in uporabe sestavljen iz več komponent, ki skupaj tvorijo podatkovno skladišče. Vsaka od teh komponent ima svojo vlogo. Za uspešno izvedbo podatkovnega skladišča je potrebno poznati pomen vsake komponente, saj lahko nepoznavanje in mešanje vlog vodi do neuspešnega projekta. Okolje podatkovnega skladišča tako sestavljajo štiri jasno določene komponente (Kimball, Ross, 2002), ki so prikazane na sliki 2.. Anton Vehar: Podatkovno skladišče in kvaliteta podatkov. stran 8 od 56.

(11) Univerza v Mariboru - Fakulteta za organizacijske vede. Diplomsko delo univerzitetnega študija. Slika 2: Osnovni elementi podatkovnega skladišča (Vir: Kimball, Ross, 2002) Transakcijski izvorni sistemi (angl. Operational Source Systems). To so operativni informacijski sistemi, ki zajemajo podatke o poslovnih transakcijah. Predstavljajo vir podatkov za podatkovno skladišče. Običajno jih obravnavamo kot zunanji dejavnik, brez možnosti vplivanja na vsebino in obliko podatkov. Zlasti kadar je takšnih sistemov več in so kompleksni, je vpliv na njih navadno ničen. Vsi ti sistemi največkrat niso namenjeni podatkovnemu skladišču in se morajo postopki podatkovnega skladišča prilagajati njim, kar otežuje izvedbo podatkovnega skladišča. Funkcija teh sistemov ni izvajanje zahtevnih analitičnih poizvedb in hranjenju velike količine zgodovinskih podatkov. Področje priprave podatkov (angl. Data Staging Area). Področje priprave podatkov zajema področje za hranjenje podatkov in niz procesov pridobivanja, transformacije in nalaganja podatkov. Skratka vsi postopki, ki se nanašajo na manipulacije s podatki med transakcijskimi informacijskimi sistemi in področjem predstavitve podatkov. Surovi transakcijski podatki se preoblikujejo v obliko, ki je primerna za poizvedbe. Transformacije nad podatki so izvedene preden se podatki dejansko naložijo v podatkovno skladišče. Pri transformaciji podatkov je uporaba ustrezne metodologije in tehnik za zagotavljanje kakovosti podatkov ključnega pomena za uspešen prenos v podatkovno skladišče in kasnejšo uporabnost slednjega. Zadnjo fazo predstavlja nalaganje podatkov v samo podatkovno skladišče. Sledi še ustrezno indeksiranje, opremljanje z agregati in osveževanje področnih podatkovnih skladišč. Področje predstavitve podatkov (angl. Data Presentation Area). Področje predstavitve podatkov je področje, v katerem so podatki organizirani, shranjeni in dostopni na način, ki je primeren za neposredno poizvedovanje s strani uporabnikov. Največkrat vključuje uporabniški vmesnik oziroma uporabo orodij za izdelavo poročil in analiz. Uporabniško dojemanje podatkovnega skladišča je običajno le ta komponenta, saj uporabljajo in dostopajo le do tega področja. Glede na arhitekturo, ki jo zagovarja Kimball (2002) področje predstavitve podatkov navadno sestavlja set integriranih področnih podatkovnih skladišč. Področje predstavitve je. Anton Vehar: Podatkovno skladišče in kvaliteta podatkov. stran 9 od 56.

(12) Univerza v Mariboru - Fakulteta za organizacijske vede. Diplomsko delo univerzitetnega študija. zasnovano bodisi na relacijski podatkovni bazi, bodisi na večdimenzionalni podatkovni bazi. Orodja za dostop do podatkov (angl. Data Access Tools). Četrta komponenta sistema podatkovnega skladišča so orodja za dostop do podatkov na predstavitvenem nivoju. Orodja za dostop do podatkov so ključnega pomena uporabe podatkovnega skladišča. Nabor orodij obsega preproste programe za izvajanje namenskih poizvedb kot tudi bolj kompleksna orodja za podatkovno rudarjenje, upravljanje s tržnimi akcijami, vizualizacijo in podobno. Nekatera orodja omogočajo tudi vpisovanje podatkov v podatkovno skladišče oziroma njihovo prilagajanje ali popravljanje. Vsa orodja so prilagojena tako, da so kar najbolj intuitivna, hitro obvladljiva in ne zahtevajo poglobljenega tehničnega znanja. Se pa pričakuje od uporabnikov poznavanje vsebine podatkovnega skladišča. 2.1.1 Arhitektura podatkovnih skladišč Izbira prave arhitekture podatkovnega skladišča je ena izmed zelo pomembnih odločitev, ki mora biti opredeljena že povsem na začetku. Izbira arhitekture skladišča je pomembna, ker določa podatkovni model, vlogo področnih podatkovnih skladišč in zaporedje korakov v razvojnem ciklu. Enkrat določene in privzete arhitekture naknadno ne moremo enostavno spreminjati in je način izvedbe kasnejših projektov odvisen od zastavljene arhitekture. Podatkovno skladiščenje še vedno ni povsem zrela disciplina in zato tudi nima splošno uveljavljenih standardov glede pristopa k izgradnji. Predvsem zaradi napredkov v strojni in programski opremi se nenehno pojavljajo nove rešitve in arhitekture. Vse skupaj se razvija zelo dinamično, v nekaterih pogledih celo nekatere osnovne definicije podatkovnega skladišča ne veljajo več. Ena izmed najpomembnejših odločitev, s katero se mora soočiti vsak načrtovalec podatkovnega skladišča že na začetku, je izbira prave arhitekture. Vendar je prav na področju poznavanja in razumevanja arhitektur podatkovnih skladišč največ zmede; dodatno jo povzročajo še avtorji in zagovorniki posameznih arhitektur s svojimi priporočili ali opozorili o primernosti drugih arhitektur. Cena projektov podatkovnega skladiščenja je v primerjavi z ostalimi projekti na področju informatike visoka, zato je strah pred nepravilno izbiro arhitekture utemeljen. V splošnem ločimo tri arhitekturne vrste za podatkovna skladišča, in sicer: • centralizirana arhitektura ali pristop, imenovan od zgoraj navzdol, • distribuirana arhitektura ali pristop, imenovan od spodaj navzgor, • federativna arhitektura ali kombiniran pristop (hibridna rešitev obeh naštetih pristopov). V središču centralizirane arhitekture podatkovnega skladišča je podatkovno skladišče zaključenega organiziranega sistema, ki »hrani« področna skladišča, polni pa se iz operativnih podatkovnih baz ter operativnega podatkovnega skladišča. Največji zagovornik takšne arhitekture je Inmon. V taki arhitekturi so področna skladišča odvisna struktura, saj so podatki pridobljeni oz. naloženi praviloma izključno iz podatkovnega. Anton Vehar: Podatkovno skladišče in kvaliteta podatkov. stran 10 od 56.

(13) Univerza v Mariboru - Fakulteta za organizacijske vede. Diplomsko delo univerzitetnega študija. skladišča organizacije. Osnovno arhitekturo centraliziranega podatkovnega skladišča prikazuje slika 3.. Slika 3: Arhitektura centraliziranega podatkovnega skladišča Področno skladišče je podmnožica podatkovnega skladišča določene organizacije. V distribuirani arhitekturi je podatkovno skladišče le unija področnih skladišč. Področno skladišče igra po navadi vlogo oddelčnega, krajevnega ali funkcionalnega podatkovnega skladišča in podpira eno ali več specifičnih področij. Tipično distribuirano arhitekturo, katere največji zagovornik je Kimball prikazuje slika 4. Kot lahko razberemo iz slike 4, proces izgradnje podatkovnega skladišča zajema postopno izgradnjo posameznih neodvisnih področnih skladišč, ki jih na koncu povežemo v logično podatkovno skladišče celotne organizacije. Tak pristop izgradnje imenujemo tudi pristop »od-spodaj-navzgor« (angl. bottom-up).. Anton Vehar: Podatkovno skladišče in kvaliteta podatkov. stran 11 od 56.

(14) Univerza v Mariboru - Fakulteta za organizacijske vede. Diplomsko delo univerzitetnega študija. Slika 4: Distribuirano podatkovno skladišče Federativna arhitektura podatkovnega skladišča je hibridna rešitev omenjenih dveh arhitektur, ki temelji na uporabi skupnega poslovnega modela (angl. common business model) in področjih priprave informacij (angl. information staging areas), ki so v skupni rabi. Centralno podatkovno skladišče tako vsebuje poljubno število neodvisnih področnih skladišč. Predlagana arhitektura zagotavlja nizke stroške in hitro povrnitev vloženih sredstev z uporabo neodvisnih področnih skladišč, pri čemer kasnejša podatkovna integracija ni potrebna. Shematski prikaz je viden na naslednji sliki.. Anton Vehar: Podatkovno skladišče in kvaliteta podatkov. stran 12 od 56.

(15) Univerza v Mariboru - Fakulteta za organizacijske vede. Diplomsko delo univerzitetnega študija. Slika 5: Federativna arhitektura podatkovnega skladišča Za določitev učinkovite in ustrezne arhitekture podatkovnega skladišča, ki zagotavlja primerne odzivne čase in učinkovito izrabo virov, je nujno poznavanje lastnosti posameznih arhitektur, pozitivnih in negativnih. Pravilna odločitev zmanjša tveganje, omogoča optimalno delovanje in znižuje stroške izgradnje in vzdrževanja. 2.1.2 Polnjenje podatkovnih skladišč Pri gradnji podatkovnega skladišča imajo pomembno vlogo načrtovanje, izdelava in vzdrževanje postopkov pridobivanja, transformacije in polnjenja podatkov iz izvornih sistemov v podatkovno skladišče. Viri podatkov po posameznih področjih so največkrat vezani na določen vir oziroma posamezno aplikacijo. Te podatke je treba ustrezno integrirati v podatkovno skladišče, in sicer iz vseh razpoložljivih virov, ki jih je običajno več. Izvesti je potrebno pridobivanje, transformacijo in polnjenje teh podatkov. Proces, ki obsega te postopke se s kratico imenuje ETL. ETL je kratica za proces ekstrakcije (extract), preoblikovanja (transformation) in nalaganja (load) podatkov [v nadaljevanju ETL]: • Extract; zajem podatkov iz različnih sistemov in v različnih formatih ter oblikah. • Transform; preoblikovanje podatkov, kamor spada več postopkov kot na primer čiščenje, združevanje, preoblikovanje, odstranjevanje podvojenosti, odstranjevanje slabih in izločevanje nepopolnih podatkov (Kimball, 1998). • Load; nalaganje podatkov v podatkovno skladišče.. Anton Vehar: Podatkovno skladišče in kvaliteta podatkov. stran 13 od 56.

(16) Univerza v Mariboru - Fakulteta za organizacijske vede. Diplomsko delo univerzitetnega študija. Vsi trije omenjeni koraki potekajo v tem vrstnem redu, ko želimo prenesti podatke iz zunanjih virov v skladišče podatkov. Skrbno načrtovan proces ETL je osnova za uspešno napolnjeno podatkovno skladišče visokih zmogljivosti, ki je v kasnejših fazah življenjskega cikla pripravljeno na nadgradnje. Slabosti ETL postopkov se ne pokažejo takoj po uvedbi v uporabo, temveč se kasneje pokažejo v fazi vzdrževanja ali nadgradnje podatkovnih skladišč. Proces ETL je tesno povezan s podatki in s tem tudi s problematiko integracije podatkov iz različnih in heterogenih virov ter navsezadnje s problematiko kakovosti podatkov v podatkovnih skladiščih. Pri načrtovanju procesa ETL je zato treba že v sami fazi načrtovanja imeti za cilj dolgoročno in dobro rešitev ter načrtovati tako, da se dosega učinkovitost na dolgi rok. Proces ETL se izvaja skozi celotno življenjsko dobo podatkovnega skladišča, zato stroški niso vezani le na začetno naložbo. ETL proces predstavlja bistveno dodano vrednost podatkov. Predvsem ETL proces: • odstrani napake in popravi manjkajoče podatke, • zagotavlja pregled in dokumentiranost polnjenja podatkov, • omogoča kontrolo podatkov in zaupanje v podatke, • zajema transakcijske podatke za hrambo, • prilagodi podatke iz različnih virov za skupno rabo, • strukturira podatke v primerno obliko. Proces ETL torej zajema postopke čiščenja podatkov, kontrolo vhodnih podatkov, obveščanje o kakovosti podatkov, definicijo preslikave podatkov iz izvornih sistemov v podatkovno skladišče, združevanja podatkov iz različnih virov, periodično proženje postopkov in paketnih obdelav ter podobno. ETL proces ustvarja ali pa zaustavlja podatkovno skladišče. Čeprav je proces ETL, dejavnost v ozadju, ki je končni uporabniki ne vidijo ali se je zavedajo, je zelo pomembna. Vzpostavitev ETL postopkov v tipičnih projektih podatkovnih skladišč običajno obsega okoli 80 % vseh potrebnih virov. ETL postopki se lahko izdelajo kot lastna rešitev z implementacijo ustreznih paketnih obdelav in kodiranjem skript. Lahko pa se uporabijo za to namenska orodja. Oba pristopa imata svoje prednosti in slabosti, odločitev pa je odvisna od več dejavnikov. V zadnjem času se vse pogosteje uporabljajo ETL orodja, zlasti če gre za nove implementacije podatkovnih skladišč. Prednosti uporabe ETL orodij so, da je že vsebovana določena organiziranost metapodatkovnih modelov, ki je ob začetku načrtovanja ni potrebno vzpostavljati. Običajno že vsebujejo nadzorni modul za nadzor nad izvajanjem procesov polnjenja podatkov. Grafični uporabniški vmesniki nazorno prikazujejo preslikave med podatki, učenje dela z orodjem je zato hitro in uporaba enostavna. Orodja vključujejo mehanizme obravnave napak, pregledov polnjenja podatkov in nadzor nad izvajanjem.. Anton Vehar: Podatkovno skladišče in kvaliteta podatkov. stran 14 od 56.

(17) Univerza v Mariboru - Fakulteta za organizacijske vede. Diplomsko delo univerzitetnega študija. Lastna rešitev za ETL proces nudi večjo prilagodljivost, saj ni omejitev na posebnosti posameznega orodja in druge opreme, ki se pojavlja v podatkovnem skladišču. Ponovna uporaba delov kode ali rešitve je običajno enostavnejša, optimizacija je boljša in prilagodljiva glede na posebnosti arhitekture. Prav tako lahko postopke mnogo bolj prilagodljivo optimiziramo, testiramo, obravnavamo napake ter izvajamo korekcijske ukrepe. Po nekaterih ocenah je danes še vedno približno 70 % vseh procesov ETL v podatkovnih skladiščih izvedenih s skripti in paketnimi obdelavami. Dolgoročno pa je rešitev v integriranih orodjih, ki so se v zadnjih letih znatno izboljšala in razvila. Upoštevati je potrebno še, da so pri ročnem kodiranju nekateri vidiki razvoja podatkovnih skladišč niso upoštevani (ustvarjanje metapodatkov, dokumentacije, zagotavljanje sledljivosti transformacije in podatkov, pregled soodvisnosti posameznih procesov, analize vpliva sprememb in podobno).. 2.2 RAZVOJ PODATKOVNIH SKLADIŠČ Podatkovno skladišče ima značilno arhitekturo, ki v osnovi začne s pogledom na celoto in se nadalje poglobi v detajle. Detajli kot taki so zelo pomembni za podatkovno skladišče, vendar le v kontekstu celote (Inmon, 2002). Poslovanje stremi k večji fleksibilnosti kljub temu, da podjetja upravljajo z vedno več podatki. Hitro spreminjajoče se poslovno okolje spreminja način, kako uspešno podjetje nastopa in konkurira na trgu. Take zahteve vodijo v večje zahteve po upravljanju in uporabi podatkov, poslovanje je vse hitrejše, zmanjšujejo se proizvodni cikli, odločanje poteka hitreje, stranke imajo več moči, izbire in informacij. Zasnova podatkovnih skladišč je pravzaprav starejša, kot si jo predstavlja večina ljudi. Sam razvoj od začetkov do današnjega stanja je bil zelo dinamičen oziroma je še vedno tak, saj se razvoj še ni ustavil. Skozi razvoj so se spreminjali pristopi k izgradnji, tipi arhitektur, načini polnjenja in vzdrževanja ter navsezadnje tudi načini uporabe. Skozi razvoj se je tako porajalo vedno več načinov in opcij k pristopu izgradnje podatkovnih skladišč. V splošnem pa so bile opcije raznolike, nejasne in nemalokrat ne transparentne. Šele v zadnjem času lahko sledimo dobi združevanja, v kateri se pojavlja nov splošen pristop glede izgradnje podatkovnih skladišč. V zadnjem času se še največ razvoja vrši na področju programske in strojne opreme, kjer se še vedno pojavljajo novi trendi oziroma nove generacije podatkovnih skladišč. Sprva se je ves poudarek namenjal operativnim informacijskim sistemom. Tu so bile možnosti za izboljšave najbolj očitne in prihranki največji. Vendar so se kmalu pojavile tudi želje, da bi iz podatkov, ki so se nabirali v operativnih sistemih, dobili tudi informacije, ki bi jih potrebovali za upravljanje. Tako se je začel razvoj podatkovnih skladišč v današnjem smislu. Glede na skromne zmogljivosti in velike stroške računalniške podpore so bili začetki precej skromni. V sedemdesetih so podjetja v svoje informacijske sisteme uvajala aplikativne sisteme, ki so omogočali avtomatizacijo poslovnih in ostalih procesov na operativnem nivoju.. Anton Vehar: Podatkovno skladišče in kvaliteta podatkov. stran 15 od 56.

(18) Univerza v Mariboru - Fakulteta za organizacijske vede. Diplomsko delo univerzitetnega študija. Posledica je bilo kopičenje vse večjih količin podatkov v podatkovnih bazah transakcijskih sistemov. Pri tem so se pojavile prve težave z obvladovanjem take količine podatkov za potrebe analiz in poročanja. Dodaten problem so predstavljali zgodovinski podatki, ki so se iz transakcijskih sistemov periodično shranjevali na druge nosilce. V osemdesetih so bile aplikacije decentralizirane in distribuirane podatkovne baze so bile vse bolj uveljavljene. Vendar pa se dostopi do transakcijskih baz niso izkazali za primerne in »otoki podatkov« so še vedno obstajali kot problem. Kot stranski produkt delovanja operativnih sistemov so nastajale velike podatkovne baze, ki jih je bilo mogoče uporabiti za pripravo poročil. Nastali so t. i. upravljavski informacijski sistemi. Poročila so bila standardizirana, vnaprej pripravljena in izdelana periodično v znanih intervalih. Uporabljana so bila relativno redko, saj je bilo v obilju informacij v standardnih poročilih težko pridobiti pravo. Šele v devetdesetih so podatkovna skladišča omogočila rešitev optimizacije in dostopnosti podatkov. Trenutna praksa je zbiranje potrebnih podatkov v optimizirano bazo, ne glede na več heterogenih virov in platform, ki jih uporabljajo izvorni sistemi. Podatkovna skladišča so tokrat zares predstavljala podporo za odločanje. Namesto standardnih poročil je bilo mogoče, da je uporabnik sam nabral tiste informacije, ki jih je potreboval in ko jih je potreboval. Na spodnji sliki je razviden razvoj podatkovnih skladišč od začetkov, ko je služil zagotavljanju poročil do danes, ko predstavlja sistem za odkrivanje znanja.. Slika 6: Razvoj podatkovnih skladišč (Vir: The Knowledge Access Suite, 1996) Skozi celoten razvoj se je razvijala tudi strojna in programska oprema. Razvoj le-te je v nekaterih primerih bistveno vplival na razvoj podatkovnih skladišč. Prva generacija stojne opreme je bila uporabljena infrastruktura, kot so jo uporabljali transakcijski sistemi. V drugi generaciji razvoja strojne opreme se je že pojavila strojna oprema namensko izdelana in optimizirana za podatkovna skladišča. V tretji generaciji pa smo priča namenskim napravam, ki služijo kot del podatkovnih skladišč. Podobno se je. Anton Vehar: Podatkovno skladišče in kvaliteta podatkov. stran 16 od 56.

(19) Univerza v Mariboru - Fakulteta za organizacijske vede. Diplomsko delo univerzitetnega študija. razvijala tudi programska oprema. V zadnjem času prav razvoj strojne in programske opreme narekuje razvoj podatkovnih skladišč. Zmogljivosti današnje tehnologije so tako na primer omogočile izvedbo t. i. podatkovnih skladišč v realnem ali skoraj realnem času.. 2.3 UPORABA PODATKOVNIH SKLADIŠČ DANES Potreba po skladiščenju podatkov je nastala zaradi poslovnega vidika združevanja podatkov iz različnih virov, ker so imela podjetja večje število programskih rešitev za posamezna poslovna področja, ki pa med seboj niso bila povezana. Podatkovno skladišče je reševalo to problematiko. Uporaba podatkov iz podatkovnih skladišč se je od nastanka podatkovnih skladišč do danes precej spreminjala. Spremenila se je tehnologija, procesi in način dela ter navsezadnje tudi znanje ljudi, ki delajo s podatkovnimi skladišči. Sprva so podatkovna skladišča nadomeščala transakcijske sisteme in bila osnova za poročanje in analize manjšega obsega. Sčasoma je tehnologija napredovala in omogočala vse več. Temu je sledil razvoj podatkovnih skladišč in skladno s tem so naraščala pričakovanja in želje. Od prvotnih poročil se je do danes na osnovi podatkovnih skladišč, kot enovite platforme, razvilo več načinov izrabe podatkovnih skladišč.. Slika 7: Razvoj poslovnega obveščanja (Vir: TDWI, 2003) Naprednejša uporaba se izvaja s pomočjo analitičnih programskih rešitev, ki v splošnem omogočajo pregled ključnih kazalnikov poslovanja podjetja preko nadzornih plošč in odkrivanja znanja iz podatkov. Odkrivanje znanja iz podatkov ponuja dodatne možnosti za izrabo podatkovnega skladišča v podjetjih. Področje je manj razširjeno in za zdaj relativno neizkoriščeno, čeprav velikokrat prinaša največjo dodano vrednost. Pri metodah za odkrivanje znanja. Anton Vehar: Podatkovno skladišče in kvaliteta podatkov. stran 17 od 56.

(20) Univerza v Mariboru - Fakulteta za organizacijske vede. Diplomsko delo univerzitetnega študija. iz podatkov se uporabljajo matematične tehnike, s katerimi je mogoče analizirati ogromne količine podatkov in izdelati napovedi, odkrivati skrite vzorce, vzroke za obnašanje in napovedi glede tega kako stranke, zaposleni, sistemi, omrežja, konkurenca, trg in ostali dejavniki medsebojno vplivajo ter se odzivajo na različne situacije. V zadnjem času pa se je uporaba podatkovnih skladišč izkazala tudi v vlogi odločitvenih sistemov za poslovanje s strankami (npr. odločitev o odobritvi posojila stranki ali ne) ali pa kot vir podatkov za druge sisteme, največkrat na sisteme za ravnanje s strankami.. 2.4 VPLIV SLABE KAKOVOSTI PODATKOV NA PODATKOVNO SKLADIŠČE Nekakovostni podatki v podatkovnem skladišču imajo lahko škodljiv vpliv na poslovanje organizacije. Če napake niso identificirane in popravljene dovolj zgodaj, lahko nekakovostni podatki negativno vplivajo na vse podrejene oziroma odvisne sisteme. To pomeni direkten vpliv na informacijsko prednost, o kateri ne moremo govoriti, če podjetje razpolaga z nekakovostnimi podatki. Poleg tega je posledica višanje stroškov, ogrožanje odnosov s strankami ter ima za posledico tudi napačne napovedi in navsezadnje slabo odločanje. Problemi povezani z nekakovostnimi podatki v podatkovnem skladišču, so lahko bolj pogubni, kot je splošno mišljenje. V določenih primerih je celo bolje imeti na razpolago nič podatkov, kot pa nekakovostne oziroma zavajajoče. Nekakovostni podatki vplivajo na vse nivoje odločanja v organizaciji: • strateški, • taktični, • operativni. Na operativni ravni slaba kakovost podatkov vpliva na podjetje v povečanem nezadovoljstvu kupcev, povečanih stroških in nižjem zadovoljstvu zaposlenih. Stranke in poslovni partnerji zahtevajo od podjetij točnost podatkov, ustrezno dobavo izdelkov in storitev, ter ustreznost izstavljenih računov. Čeprav vodstvo za odločitve na strateškem nivoju ne uporablja detajlnih podatkov, to ne pomeni bolj kakovostnih podatkov. Pri tem velja, da je vpliv kakovosti podatkov v tem primeru neprimerno daljnosežnejši. Odločitveni proces namreč temelji na odločitvah, ki niso boljše, kot so podatki sami. V določenih primerih je lahko odločitev tudi slabša glede na podatke. Kolikor več podatkov je potrebno za sprejem neke odločitve, toliko večja je možnost, da bo zaradi nekakovostnih podatkov odločitev napačna. Pomanjkanje ustreznih, popolnih, točnih in pravočasnih podatkov onemogoča ali otežuje določevanje prave strategije podjetja. Nekakovostni podatki ne vplivajo le na sprejemanje odločitev, ampak povzročajo tudi neposredno s tem povezane stroške. Po podatkih »The Data Warehousing Institute« samo slabi podatki o strankah letno ustvarijo nekaj sto milijonov dolarjev nepotrebnih. Anton Vehar: Podatkovno skladišče in kvaliteta podatkov. stran 18 od 56.

(21) Univerza v Mariboru - Fakulteta za organizacijske vede. Diplomsko delo univerzitetnega študija. stroškov za namene poštnin in tiskanja ter dodatno zaposlenih uslužbencev. Bolj zaskrbljujoče je dejstvo, da so pravi stroški nekakovostnih podatkov še veliko višji. Posledice zaradi slabih odnosov s strankami in odtujitve strank so tudi bolj daljnosežne. Če organizacija izgubi lojalne stranke, izgubi osnovo za prodajo in naslavljanje svoje ponudbe, torej tudi potencialni prihodnji prihodek. Vpliv slabe kakovosti torej vpliva na vse nivoje odločanja v organizaciji, razlika je le na kakšen način se to odraža v poslovanju organizacije. Za vsak posamezen nivo je značilno odločanje na podlagi drugačnih podatkov, za različna obdobja in detajle prikaza. Kako so odločitve vezane na posamezen nivo in kakšno poslovno vrednost predstavljajo, je prikazano na naslednji sliki.. Slika 8: Poslovna vrednost odločitve glede na nivo odločanja Kvaliteta podatkov negativno vpliva na uspeh skladišča podatkov. Nekvalitetni podatki tako pomenijo neuspeh podatkovnega skladišča in s tem povezano poslovno škodo. Posledično to predstavlja interno neuspešen projekt in tehnične težave povezane s tem. Sčasoma uporabniki začnejo iskati podatke iz drugih virov, pojavljajo se osamljeni otoki ali samostojne baze podatkov, pojavlja se več verzij resnice, nezaupanje med oddelki naraste.. Anton Vehar: Podatkovno skladišče in kvaliteta podatkov. stran 19 od 56.

(22) Univerza v Mariboru - Fakulteta za organizacijske vede. Diplomsko delo univerzitetnega študija. 3 KVALITETA PODATKOV V PODATKOVNIH SKLADIŠČIH V zadnjih nekaj desetletjih se je razvoj iz industrijske ekonomije preusmeril na razvoj informacijske ekonomije. Podjetja sedaj tekmujejo kako zajeti in se odzvati na informacije, s katerimi razpolagajo. Ne gre več le za proizvodnjo in distribucijo, temveč je znanje tisto, ki predstavlja vse bolj pomembno prednost. Za organizacijo je uporaba podatkov osnova za ustvarjanje prednosti na trgu. Ta prednost je v obliki strateških načrtov in dejanj tista, ki določa uspeh organizacije na trgu. Uspeh podatkovnih skladišč in informacij je v veliki meri odvisen od kakovosti podatkov v njem. Če podatkovno skladišče ne zagotavlja ustrezne kakovosti podatkov, je vsakršna uporaba iz njega pridobljenih informacij tvegana in ima negativne posledice. Predpostavka je, da so podatki v podatkovnem skladišču ustrezne kakovosti, saj je podatkovno skladišče v nasprotnem primeru pravzaprav le delno ali celo povsem neuporabno. Eden ključnih dejavnikov za uspeh podatkovnega skladišča je torej tudi kakovost podatkov. Vendar velja poudariti, da so hkrati s tem pričakovanja glede kakovosti podatkov v podatkovnih skladiščih vseeno drugačna kot od drugih baz podatkov, na primer od operativnih sistemov. Tudi stopnja kakovosti je lahko relativno nizka, odvisno od poslovnega področja in razvitosti uporabe podatkovnih skladišč. Če izhajamo iz osnovnih definicij podatkovnih skladišč in predvsem namena uporabe, lahko zaključimo, da v podatkovnih skladiščih ne stremimo k odličnosti in popolni natančnosti v podatkih. Prvotni namen in uporaba podatkovnih skladišč je bila namreč vezana na analize in pridobivanje znanja o uporabnikih, njihovih navadah in obnašanju, storitvah na trgu, analizi trga in podobno. Pri tem pa lahko nekaj odstotkov odstopajoči podatki glede na vir podatkov še vedno zadostujejo za dovolj natančne analize in ocene razmer na trgu. Za primer vzemimo analizo prodaje izdelkov, za katere je značilen sezonski vpliv kot na primer poletna konfekcija. Tudi če bomo imeli 10 % odstopanje v podatkih, glede na dejansko prodajo bomo lahko dovolj natančno predvideli začetek in konec obdobja največjega povpraševanja, kot tudi po katerih prodajnih kanalih bo prodanih največ izdelkov. Po drugi strani pa takšen odstotek napake v denimo v industriji bele tehnike nikakor ni sprejemljiv. V splošnem se je vloga podatkovnih skladišč z razvojem spremenila in so pričakovanja postala večja, kar se nanaša tudi na pričakovanja glede kakovosti podatkov. Vprašanje je torej, kakšne cilje si je realno in relevantno zastaviti glede kakovosti podatkov v podatkovnem skladišču. Teoretično se namreč lahko zelo približamo in imamo v podatkovnem skladišču glede na vir 100 % primerljive podatke. Vendar bo za dosego tega vloženega izjemno veliko truda in sredstev, povratek investicije pa temu ne bo sorazmeren. Pričakovanja glede kakovosti podatkov so tako lahko precej različna, skupno je le dejstvo, da v večini primerov ni cilj najvišja možna stopnja kakovosti podatkov, temveč. Anton Vehar: Podatkovno skladišče in kvaliteta podatkov. stran 20 od 56.

(23) Univerza v Mariboru - Fakulteta za organizacijske vede. Diplomsko delo univerzitetnega študija. najvišja še razumna. Značilno za podatkovna skladišča je še, da ta kakovost izboljšuje in je v nekaterih primerih dejansko zelo visoka oziroma lahko govorimo o 100 % natančnosti. Pri tem je razvoj tehnologije omogočil lažje doseganje teh ciljev, pravo gonilo tega pa je širitev uporabe in današnja vloga podatkovnih skladišč. Podatkovna skladišča vse bolj presegajo obseg uporabe, ki je bil značilen še nekaj let nazaj. Podatkovna skladišča tako ne predstavljajo več le ponora podatkov, ampak tudi izvor podatkov za druge sisteme, največkrat operativne. Govorimo o sklenjeni zanki in neposrednem vplivu na izvorne sisteme v tako rekoč realnem času. V takih primerih pa napak ne sme biti. Zato je kvaliteta podatkov vse bolj pomembna in se temu, kot bomo videli v nadaljevanju, posveča vse več pozornosti.. 3.1 DEFINICIJA KVALITETE PODATKOV Izraz kvaliteta podatkov pojmujejo ljudje različno, največkrat izhajajoč z vidika področja dela preko katerega so vpleteni. Tehnični pogled in razlaga tega izraza se tako razlikuje od poslovnega. Ne glede na to, pa se zdi vsem skupno dojemanje obsega pristopa k reševanju problematike. Čeprav določitev ene definicije ni mogoča, lahko identificiramo tri skupne točke: • Kvaliteta podatkov. Kriterij za določanje kvalitete podatkov je lahko spremenljiv glede na tip podatkov, način uporabe, poslovne potrebe, tehnološke zmožnosti ter še sprejemljivo toleranco do napačnih, pomanjkljivih in neenotnih podatkih. Ocena kvalitete in popravki se nanašajo na podatkovne zbirke v obsegu posameznih polj in zapisov pa do podatkovnih zbirk na nivoju celotnega podjetja oz. organizacije. • Kvaliteta in poslovni procesi. Poslovni procesi z vidika kvalitete podatkov se nanašajo na zagotavljanje kvalitete podatkov, na katere vplivajo ljudje preko različnih aplikacij. Procesi se nanašajo na standardizacijo od samega vnosa podatkov do definiranja procesov, kjer se podatki pregledajo in ročno popravljajo ter nazadnje do splošnega pristopa do upravljanja s podatki in nadzorovanja. • Načini upravljanja s podatki. Ti so običajno izvedeni s pomočjo lastno razvitih rešitev ali programskih rešitev, ki jih ponujajo različni dobavitelji. Programska oprema omogoča avtomatizacijo za merjenje kvalitete in popravljanje podatkov. Tehnologija tako omogoča precejšnjo avtomatizacijo kot na primer čiščenje nazivov in naslovov, primerjanje zapisov in nizov znakov, odpravljanje podvajanj, standardizacijo, obogatitev podatkov (npr. geopozicioniranje). Glede na ta tako kompleksno definicijo se v zvezi s tem izrazom pojavljajo različni miti in se ustvarjajo napačne razlage, ki jih je smiselno ob tem omeniti in pojasniti: • Več kot le popravki napak. Neizkušeni pogosto hitro zaključijo, da je kvaliteta podatkov iskanje in popravljanje napak. Vendar je to le ena od nalog zagotavljanja kvalitete podatkov. Ostale naloge vključujejo še odpravljanje duplikatov, normalizacijo, indeksiranje in podobno. Te naloge tudi niso vedno nujno odpravljanje napak. Pri odpravljanju podvojenih podatkov gre lahko le za optimizacijo, kjer je cilj lista naslovov brez podvojenih zapisov.. Anton Vehar: Podatkovno skladišče in kvaliteta podatkov. stran 21 od 56.

(24) Univerza v Mariboru - Fakulteta za organizacijske vede. •. •. Diplomsko delo univerzitetnega študija. Ne gre za enkratno akcijo. Upravljati s podatki pomeni konstantno spremljanje podatkov in ukrepanje. Podatki o strankah se na primer skozi čas spreminjajo, ko stranka zamenja naslov, se poroči, pridobi nov naziv in podobno. Da preprečimo zmanjšanje kvalitete, je potrebno periodično spremljati kvaliteto podatkov o strankah in jih ustrezno upravljati, da bi vzdrževali ustrezno kvaliteto podatkov. Ne glede na to, je zagotavljanje kvalitete podatkov, včasih lahko enkratna naloga. Takšni primeri so sicer redki in posledica praviloma redkih okoliščin, kot na primer migracije ali združevanja baz podatkov. Redkokdaj popolno. V določenih primerih je smiselno dosegati popolnost v kvaliteti podatkov, glede na razvejanost slabe kvalitete (na primer za finančna ali zakonsko določena poročila). Kakorkoli že, pa je zagotavljanje »ravno dovolj kvalitete« bolj učinkovito z vidika virov in bolj realističen cilj, čeprav zahteva različen pristop od primera do primera. Tako imajo na primer podatki o zalogah, ki se uporabljajo le interno, večjo toleranco glede kakovosti podatkov, medtem ko morajo biti podatki, ki so predstavljeni navzven bolj popolni.. Po definiciji, ki jo je postavil English (1999), se loči naravna in stvarna kakovost. Naravna kakovost je pravilnost ali natančnost podatkov. Gre za primerljivost podatkov med izvorom in ponorom ter razliko med njima. Stvarna kakovost informacij je vrednost, ki jo imajo podatki v podpori uporabnikom pri sprejemanju odločitev. Pomeni uporabno vrednost podatkov, ki je na primer v primeru prepozno dostavljenih podatkov lahko tudi nična. Podatki, s katerimi uporabniki ne dosegajo ciljev, nimajo pričakovane kvalitete, ne glede na to kako točni so. V nalogi smo že večkrat omenili kvaliteto podatkov v različnih kontekstih, še vedno pa ni bila podana definicija kvalitete podatkov. Kvalitetni podatki v podatkovnem skladišču niso nujno vedno le podatki, ki so primerljivi z virom in brez napak. Napačni podatki so le ena postavka v formuli kvalitetnih podatkov. V večini literature je zaslediti širši pristop h definiciji kvalitete podatkov. Največkrat navedeni so naslednji atributi, ki vsi skupaj definirajo kvaliteto podatkov v podatkovnem skladišču: 1. Točnost: Ali podatki predstavljajo realnost in preverljive vire? 2. Integriteta: Ali je struktura podatkov in povezav med entitetami ter atributi skladna? 3. Skladnost: Ali so elementi podatkov skladno definirani in razumljeni? 4. Popolnost: Ali so prisotni vsi potrebni podatki? 5. Veljavnost: Ali so vrednosti podatkov v skladu z zalogami vrednosti, ki jih definirajo poslovna pravila? 6. Pravočasnost: Ali so podatki na voljo, ko se potrebujejo? 7. Dosegljivost: Ali so podatki lahko dostopni, razumljivi in uporabni? Pri tem se prvih pet lastnosti se v splošnem nanaša na vsebino in strukturo podatkov. Obsegajo večino lastnosti, ki jih največkrat pripisujemo slabim podatkom, kot so: napake pri vnosu podatkov, pomanjkljiva ali napačna poslovna pravila, odstopanja glede na izvorne podatke, podvojeni podatki, manjkajoče in napačne vrednosti.. Anton Vehar: Podatkovno skladišče in kvaliteta podatkov. stran 22 od 56.

(25) Univerza v Mariboru - Fakulteta za organizacijske vede. Diplomsko delo univerzitetnega študija. Ne glede na to pa so podatki brez napak nepomembni, če jih uporabniki ne razumejo, si jih napačno interpretirajo, so jim nedosegljivi ali pa niso na voljo pravočasno. Zadnji dve lastnosti se tako nanašata na uporabnost in koristnost podatkov. V praksi je skoraj nemogoče zagotoviti da bi vedno vsi podatki 100 % ustrezali gornjim kriterijem. Pravzaprav niti ni potrebno oziroma je ekonomsko vprašljivo ali nesmotrno stremeti k takemu cilju. Največkrat niti ni potrebno, da bi bili podatki perfektni. Najpomembneje je, da zadostijo zahtevam uporabnikov in aplikacijam, ki jih uporabljajo. In različni uporabniki ali aplikacije zahtevajo različne nivoje kakovosti podatkov. Na primer prodajni oddelki lahko potrebujejo le grob opis tipa in obsega prodaje glede na določeno skupino kupcev za krajše preteklo obdobje, da se lahko odločijo o nadaljnjih akcijah. Zanimajo jih morda le sumarni podatki o najbolje ali najslabše prodajanih izdelkih. Tržni oddelki in analitiki potrebujejo že bolj detajlne podatke o transakcijah strank in poleg tega še ostale podatke kot so denimo demografski in podobni. Za njih le deloma kakovostni podatki še ne predstavljajo večje ovire glede na to, da lahko to ustrezno nadomeščajo z vzorčenjem in ekstrapolacijo. Po drugi strani pa finančni oddelek potrebuje najbolj kakovostne podatke. Njihove zahteve so najstrožje glede kakovosti podatkov in potrebujejo točne podatke o transakcijah, lahko celo do vrednosti centa. Največkrat morajo biti podatki tako povsem primerljivi z operacijskimi sistemi oziroma je toleranca odstopanj minimalna. Vsaka skupina uporabnikov zahteva različen nivo točnosti, popolnosti in skladnosti, da bi lahko zadovoljila svoje potrebe. Če podatki ne zadostijo njihovim potrebam, izgubijo zaupanje v podatkovno skladišče in za izpolnitev svojih potreb iščejo alternative. Pri načrtovanju podatkovnih skladišč, ki podpirajo več različnih skupin uporabnikov, je najbolje narediti zasnovo glede na skupino uporabnikov z najstrožjimi zahtevami glede kvalitete podatkov. Poleg tega je dobro v vsakem primeru zagotoviti najvišji še smiselni in možni nivo kvalitete podatkov, saj se s časom lahko zahteve uporabnikov spremenijo.. 3.2 VZROKI NEKAKOVOSTNIH PODATKOV V PODATKOVNEM SKLADIŠČU Vzrokov za nekakovostne podatke v podatkovnem skladišču je lahko tako rekoč nešteto. Največji delež pripada izvornim sistemom in vnosu podatkov, ki imajo za posledico najpogostejše probleme, povezane s kakovostjo podatkov. Na pojav napak posredno ali neposredno vplivajo uporabniki, skrbniki izvornih sistemov, nepravilno delovanje operativnih sistemov, pomanjkljivo ali napačno definirana poslovna pravila, izpadi delovanja in podobno.. Anton Vehar: Podatkovno skladišče in kvaliteta podatkov. stran 23 od 56.

(26) Univerza v Mariboru - Fakulteta za organizacijske vede. Diplomsko delo univerzitetnega študija. Nekakovostni podatki lahko pridejo v operativni sistem na različne načine: • vnos podatkov zaposlenih, • vnos podatkov strank ali poslovnih partnerjev, • spremembe v izvornih sistemih, • slabo realizirane poslovne zahteve, • neskladne definicije in poslovna pravila, • projekti selitve in pretvorbe podatkov, • nezanesljivi zunanji viri, • spremembe poslovnih pravil, • sistemske napake in • ostali. Med naštetimi vzroki sta najpogostejši razlog vnos podatkov in spremembe na izvornih sistemih. V primerih, ko organizacija dopušča vnos podatkov strankam ali poslovnim partnerjem (npr. preko interneta) je delež napak še toliko večji. Čeprav je lahko veliko napak, preprečenih z uporabo omejitev in kontrol že pri vnosu se ti postopki ne uporabljajo vedno v primernem obsegu. Tudi z uporabo omejitev in kontrol že pri vnosu, še vedno ne moremo zagotoviti kakovostnih podatkov. Ročni vnos je lahko napačen in na primer davčna številka stranke ustreza formatu, vendar je številka napačna. Poleg tega pri vnosu ni možno vedno vsega omejiti ali zajeti v kontrole, saj poslovni procesi dopuščajo določeno mero prilagodljivosti in odstopanj, kar bi v primeru omejitev potemtakem izgubili. Podobne težave nastanejo še pri združevanju raznolikih virov podatkov v enotno obliko. Verjetno najbolj pereč problem podatkov pa so nepričakovane spremembe na viru. Lahko se pojavijo spremembe v strukturi izvornih podatkov ali pa v spremenjenih poslovnih pravilih. Težava je toliko večja, ker se zaradi današnje kompleksnosti arhitekture sistemov, kakršnakoli sprememba na izvornih sistemih odraža na ostalih sistemih. Poleg tega nepričakovane spremembe pomenijo odstopanje od dogovorjenih in implementiranih poslovnih pravil. V nekaterih primerih to pomeni, da je treba obstoječa pravila spreminjati. Poleg omenjenih vzrokov se pojavijo še drugi, ki izhajajo iz subjektivnih meril interpretacije in dojemanja vsebin. To je zlasti značilno za podjetja, ki so organizirana v več enot kot divizije, sektorji, oddelki in delovne skupine, od katerih ima vsaka podprto poslovanje z različnim sistemom za upravljanje s podatki. Sčasoma oziroma včasih celo neizogibno se lahko zgodi, da vsaka skupina začne uporabljati malenkost spremenjenje ali prikrojene definicije. Vsaka skupina si splošno uveljavljene podatkovne entitete (npr. stranka in uporabnik) interpretira na za njo najbolj smiseln način in uporablja drugačna pravila za izračun vrednosti. Posamezniki ali skupine si tako nemalokrat prikrojijo definicije, čeprav so neskladne z definicijami, ki so sicer uveljavljene na nivoju celotnega podjetja. Če temu dodamo še združevanja in prevzeme organizacij ali pa globalne širitve organizacij, pa lahko postane situacije že neobvladljiva. Tovrstni problemi nimajo toliko opravka s točnostjo, veljavnostjo ali skladnostjo podatkov, kot pa z interpretacijo enotnih definicij in ene resnice.. Anton Vehar: Podatkovno skladišče in kvaliteta podatkov. stran 24 od 56.

(27) Univerza v Mariboru - Fakulteta za organizacijske vede. Diplomsko delo univerzitetnega študija. 3.3 POLNJENJE PODATKOV V PODATKOVNO SKLADIŠČE IN VPLIV NA KAKOVOST V splošnem za izvorne sisteme podatkovnih skladišč velja, da vsaka sprememba na izvornih sistemih vpliva na kakovost podatkov v podatkovnem skladišču. Vse transformacije izvornih podatkov do končne strukture v podatkovnem skladišču se izvajajo v procesu polnjenja podatkov. Največji delež v procesu zagotavljanja kakovostnih podatkov je odvisen od postopkov polnjenja. ETL predstavlja najobsežnejši in najpomembnejši del izgradnje podatkovnega skladišča. Predstavlja temelj podatkovnega skladišča in s tem tudi kakovosti podatkov v njem skozi celotni življenjski cikel. Velja, da podatki iz izvornih sistemov praviloma nikoli niso konsistentni in v primerni obliki za nalaganje v podatkovno skladišče. Sam proces ETL postaja z večanjem števila podatkovnih virov, s hitrejšim prilagajanjem transakcijskih sistemov poslovnim potrebam, čedalje bolj kompleksen in dinamičen. Le s pravim pristopom lahko še obvladujemo te procese. Na trgu so prisotna tudi namenska orodja za integracijo podatkov. Njihov namen je poenostaviti obvladovanje ETL postopkov na vseh nivojih. Tako naj bi imeli z enim orodjem enotno platformo za načrtovanje, izvedbo, vzdrževanje, spremljanje in nadzor. Praviloma vsa orodja te vrste vsebujejo tudi module za kvaliteto podatkov. Pričakovanja od sodobnega procesa ETL so tako velika: • upoštevanje poslovnih pravil, • nadzor nad prenosom podatkov, • obdelava podatkov in ponovljivost polnjenja, • ustrezna kvaliteta podatkov, • robustnost, razpoložljivost in točnost, • priključitev na poljuben vir ne glede na izvor podatkov, • pregled izvora in celotnega tokokroga podatkov, • omejeno časovno okno za celoten ETL, • obveščanje o postopkih in napakah, • ponovno uporabo že razvite kode, • ustrezni meta podatki. Načrtovanje in izvedba procesa polnjenja podatkov bistveno vpliva na celoten življenjski cikel kvalitete podatkov v okviru polnjenja podatkovnega skladišča. Dober proces polnjenja ne le odpravlja napake v okviru polnjenja, ampak tudi ustrezno upravlja kvaliteto podatkov skozi življenjski cikel rešitve. Značilno je, da se v začetni fazi uvajanja podatkovnega skladišča ali novega področja lahko proces še večkrat popravi oziroma ustrezno prilagaja. Zlasti je to značilno za projekte, kjer je bila analiza izvornih podatkov narejena slabo ali pa so izvorni podatki zaradi vsebinskega obsega ter kompleksnosti poslovnih pravil zelo obsežni. Zato načrtovanje polnjenja podatkov predstavlja zelo pomemben del celotne izvedbe podatkovnega skladišča. Napačen načrt izvedbe ima za posledico naknadno. Anton Vehar: Podatkovno skladišče in kvaliteta podatkov. stran 25 od 56.

(28) Univerza v Mariboru - Fakulteta za organizacijske vede. Diplomsko delo univerzitetnega študija. spreminjanje postopkov ETL. To je lahko povezano z velikimi stroški prilagajanja. V določenih primerih pa je potrebna celo ponovna izvedba procesa polnjenja ali redizajn podatkovnega skladišča. ETL postopki so bistven del podatkovnega skladišča in prisotni preko celotnega življenjskega cikla. Kakršnakoli sprememba izvornih podatkov ali poslovnih definicij tako neposredno vpliva na ETL postopke. Če gre za večje spremembe je potrebno prilagajati ETL postopke. ETL postopke je potrebno tudi ves čas spremljati in nadzorovati delovanje. Sčasoma se lahko na primer spremeni obseg podatkov, kar ima za posledico daljše delovanje. Potreba je optimizacija postopkov ali v nekaterih primerih popolna predelava in uporaba druge metodologije. V zadnjem času je tako opaziti, da vse več ETL postopkov že prvotno zasnovano tako, da se vgradijo komponente kvalitete. To obsega ustrezno transformacijo podatkov, preverjanje izvornih podatkov, obravnavo napak, spremljanje in nadzor samih postopkov ter navsezadnje ustrezne meta podatke in dokumentacijo o samih postopkih. Pri starejših izvedbah ETL procesov, pa se kvaliteta vgrajuje v okviru nadgradenj ali predelav. Zlasti je to značilno za hitro rastoča in heterogena okolja, saj to enostavno narekujejo potrebe po boljši kvaliteti podatkov.. 3.4 NAČINI ODKRIVANJA NAPAK V PODATKOVNEM SKLADIŠČU Način odkrivanja napak v podatkovnem skladišču, njihov vpliv na poslovanje in odpravljanje napak je specifično za vsako podjetje in odvisno od več dejavnikov. Največkrat določa odziv na napake organiziranost v podjetju, velikost in arhitektura podatkovnega skladišča, obseg in kompleksnost različnih poslovnih področij, načini ter dostop do podatkov in podobno. Glede na to kako in kdaj se odkrije napaka, je v veliki meri odvisen vpliv napake na poslovanje in odpravljanje napake. Zgodnje odkritje napake običajno pomeni preprečitev poslovne škode in relativno hitro odpravo napake. Medtem, ko ima napaka, ki ostane prikrita dlje časa, lahko škoden vpliv na poslovanje in pomeni odprava te napake tudi več dela. V grobem se način odkritja napak v podatkovnem skladišču lahko razdeli v štiri skupine: • napake odkrite pri procesu polnjenja, • napake odkrite pri uporabi podatkov, • napake odkrite v okviru sistematične kontrole podatkov, • napake pri podrobnejših analizah ali pripravi podatkovnih tržnic. Vsak od omenjenih načinov ima določene predpostavke in omejitve. Za nobenega tudi ne moremo trditi da je bolj ali manj primeren, saj ima vsak svoje pomanjkljivosti in prednosti.. Anton Vehar: Podatkovno skladišče in kvaliteta podatkov. stran 26 od 56.

Referensi

Dokumen terkait

regional rubber market, perlu diketahui dan dipelajari terlebih dahulu latar belakang dan tujuan dari pembentukan dimaksud mengingat di masing-masing negara telah

pola penataan ruang yang sesuai dengan RTRW Kabupaten Pinrang dan Perda Provinsi Sulawesi Selatan tentang RTRW Provinsi Sulawesi Selatan sebagai dasar

Serum antibodi yang sudah diencerkan dimasukkan ke dalam sumuran microplate Elisa masing-masing 50 µl, kemudian dibungkus dengan plastik cling wrap dan ditutup dengan

Dapat dilihat dengan gerakan silang aspek yang terjadi peningkatan adalah perabaan, kinestetik, dan koordinasi mata kiri dan kanan ketika anak melakukan keterampilan

Nyamuk dewasa jantan umumnya hanya tahan hidup selama 6 sampai 7 hari, sangat singkat hidupnya dan makanannya adalah cairan tumbuhan atau nektar, sedangkan

Dalam penelitian ini didapatkan hasil mengenai pola perilaku pacaran pada remaja yang dimulai dari proses perkenalan, proses pendekatan, proses merasakan cinta,

Bagaimana kaedah pelaksanaan bagi membayar gaji pekerja yang ditanggung kontraktor bagi perkhidmatan pembersihan dan bekalan makanan bermasak di sekolah, IPTA,