Aktuální vydání

celé číslo

05

2020

snímače teploty

celé číslo

Datové sklady – zdroj znalostí a informací

Automa 8/2000

Ing. Petr Jech,
technický ředitel,
ADASTRA – Data Warehouse Experts, divize Speedware s. r. o.

Datové sklady – zdroj znalostí a informací

Oblasti Business Intelligence (BI) a Data Warehousing (DW) jsou jedním z nejrychleji se rozvíjejících odvětví softwarového průmyslu, jak v zahraničí, tak v podmínkách českého a slovenského trhu. Je to dáno především významnými změnami v podnikání v posledních letech, které pravděpodobně nejvýstižněji popisuje citát Petera Druckera:

„Znalosti a informace jsou dnes jediným smysluplným zdrojem. Tradiční výrobní faktory – půda, práce a kapitál – nezmizely, ale staly se druhořadými. Hlavním producentem bohatství jsou informace a znalosti.“

Obsažná, přesná a včas dodaná informace se stává v rukou manažera tou nejdůležitější zbraní v boji s konkurencí na současném, velmi liberalizovaném trhu. Změna v podmínkách podnikání a vysoce konkurenční prostředí mají bezprostřední vliv na vývoj informačních systémů a služeb. Ještě před několika lety byl za nejdůležitější považován systematický sběr a uchovávání informací pro zabezpečení základních provozních funkcí podniku, jako je účetnictví nebo výroba (typickými představiteli jsou tradiční systémy ERP).

Toto období se však stává již minulostí. Není totiž podstatné, kolik gigabytů dat uchovává společnost na svých serverech, ale jak je schopna z tohoto ohromného objemu získat smysluplnou informaci, která je použitelná pro řízení. Proto se do popředí zájmu dostávají informační systémy, které umožňují společnostem data z primárních systémů (např. již citovaných ERP) zpracovat (transformovat, validovat a agregovat) do podoby, se kterou může pohodlně pracovat koncový uživatel – manažer nebo analytik. Touto problematikou se zabývají informační systémy, které se řadí do oblasti Data Warehousing a Business Intelligence.

Proč investovat do vybudování datových skladů?
Odpověď na tuto otázku mohou naznačit následují situace, které se vyskytují ve většině společností.

  • Problémem dnešního manažera často není nedostatek dat, ale jejich nadbytek. Gigabyty dat bez rozumně zpracovaného výstupu jsou pro podporu rozhodovacího procesu v podstatě nepoužitelné.
  • Data z různých oblastí jsou umístěna v odlišných informačních systémech. Pro analýzu je však třeba mít data pohromadě a navzájem je porovnávat. Například pro to, aby bylo možné zjistit rentabilitu jednotlivých prodávaných výrobků, je třeba data o prodeji porovnávat s náklady na výrobu a obchodní činnost (účetnictví).
  • Nic nenaruší strategickou poradu managementu „lépe“ než dvě a více verzí výsledků totožných rozborů pocházejících z různých oddělení společnosti. Kromě spolehlivosti samotných dat je otázkou, zda všichni použili pro výpočet stejnou definici.
  • Pro kvalifikované rozhodnutí je třeba data důkladně analyzovat. Na to všem jedna sestava nestačí, protože při pohledu na sadu výsledků se objevuje množství otázek, např. jak přispěly jednotlivé výrobky do celkového objemu prodeje, zda je nejprodávanější výrobek zároveň nejvýnosnější, jak se vyvíjel stav zásob v posledních šesti měsících a další. Data jsou analyzována v uzavřeném cyklu: získání a zobrazení informace – myšlenkový pochod – objevení souvislostí – a zpět… Dobu tohoto procesu je nutné měřit v sekundách či minutách. Nelze čekat dny a týdny, než v oddělení informatiky vznikne nová sestava.
  • Že ne všechna data ve společnosti jsou v dobrém stavu, ví každý, nebo to alespoň tuší. Jaká je jejich skutečná kvalita a jak mnoho na ně lze spoléhat v kritických chvílích rozhodování, obvykle neví nikdo.

Odpovědí na popsané situace je implementace celopodnikového datového skladu (DS). Ze všech známých definic pojmu DS je přístupu společnosti ADASTRA nejbližší šestibodová definice Ralpha Kimballa, celosvětově uznávaného odborníka na problematiku datových skladů, jež je uvedena v tab. 1.

Tab. 1. Definice datového skladu podle R. Kimballa

  Odstavec definice Poznámka
1. DS poskytuje uživatelům přístup k datům společnosti na přístup lze pohlížet z různých úhlů pohledu: - uživatelé musí mít přístup k DS ze svých osobních počítačů, - přístup musí být kdykoli realizovatelný, spolehlivý a výkonný, - přístup musí být pro uživatele jednoduchý a uživatelsky příjemný
2. DS je konzistentní na konzistenci lze opět nazírat více než jedním způsobem: - dva uživatelé dotazující se na tutéž veličinu za stejných podmínek musí dostat shodné výsledky, - DS obsahuje jedinou definici dané veličiny (např. prodej), která je z DS zjistitelná a platná pro všechny uživatele, - data v DS jsou validovaná a stoprocentně čistá
3. data v DS mohou být filtrována a kom-binována podle všech možných měřítek v podniku nebo organizaci (slice and dice) tento požadavek vede k zavedení multidimenzionálního modelování; ukazatele (metriky, veličiny) jsou sledovány podle podnikových měřítek (dimenzí); postup slice and dice říká, že je možné vždy sestavit dotaz, který je formulován tak, že libovolná dimenze nebo kombinace dimenzí budou umístěny na řádky pomyslné tabulky, libovolná dimenze nebo kombinace dimenzí do sloupců a pro dimenze, které se pohledu neúčastní, lze aplikovat filtr
4. projekt datového skladu nezahrnuje jen data v databázi, ale i nástroje pro jejich dotazování, analýzu a prezentaci výsledkem projektu DS nejsou pouze technologie (hardware, RDBMS apod.) a data uložená v databázi, ale také aplikace a nástroje, které k datům přistupují a jsou schopny je prezentovat v uživatelsky příjemné podobě; aplikace mohou přímo přistupovat k relační databázi DS nebo mohou využívat data předem zpracovaná v multidimenzionálních databázích OLAP
5. DS je místo, kde se publikují kvalitní a zkontrolovaná data osoby zodpovědné za plnění databáze DS umožní používání pouze takových dat, která jsou zkontrolovaná a kompletní; neúplná nebo chybná data nejsou povolena k publikování
6. kvalita DS je motivací pro reinženýrink firemních procesů (BPR) DS nemůže opravovat nekvalitní data; data v DBDS jsou uspořádána tak, aby byla identifikovatelná jejich chyba; uživatel DS může na základě toho, co „vidí“, iniciovat změnu procesů pořizování dat tak, aby se dosáhlo menší chyb

Z technického hlediska je ve společnosti ADASTRA projekt datového skladu považován za tvorbu informačního systému, který zahrnuje více technologií. Mezi ně jsou řazeny:

  • databáze DS – typicky relační databáze,
  • nástroje ETL (Extraction, Transformation, Loading) – datové pumpy pro přenos dat do DS,
  • datová tržiště,
  • jednotné úložiště metadat jednotlivých komponent datového skladu (metadata repository),
  • nástroje OLAP,
  • aplikace pro koncové uživatele (MIS),
  • nástroje pro analýzu, dotazování a tvorbu zpráv.

V posledních několika letech význam datového skladu značně přerůstá jeho původní určení – tedy datová základna pro MIS, tvorbu zpráv a analýz. DS se nyní stává srdcem pro moderní disciplíny informatiky, jako jsou Data Minning (DM, získávání informací z DS), Customer Relation Management (CRM, řízení podle požadavků zákazníků), Supply Chain Management (SCM, řízení dodavatelských řetězců) nebo e-business. Všechny aplikace tohoto typu používají DS jako datovou základnu a umožňují společnostem navázat užší a intenzivnější vztah se zákazníky.

Přístup týmu ADASTRA k budování DS vychází ze zkušenosti, že je nezbytné použít nejen celou řadu technologií od různých dodavatelů, ale především uplatnit správný metodický postup. Tato zkušenost je zcela v souladu s přístupem R. Kimballa, jehož metodologie se stala také koncepcí projektové metodiky týmu ADASTRA.

Ralph Kimball
Ralph Kimball je světoznámý odborník na problematiku datových skladů (Data Warehouse), žije a pracuje v USA. Je zakladatelem Ralph Kimball Data Warehouse University. Výsledkem jeho dlouholeté výzkumné a publikační činnosti je řada odborných studií a publikací. K nejznámnějším patří „The Data Warehouse Toolkit“.

ADASTRA
divize Speedware s. r. o.
Benešovská 10
101 00 Praha 10
tel: 02 717 321 98
e-mail: info@adastra.cz
http://www.adastra.cz