Článek ve formátu PDF je možné stáhnout
zde.
Řezanková, H. – Húsek, D. – Snášel, V.: Shluková analýza dat. Professional Publishing, Praha, 2007, 196 stran, náklad a cena neuvedeny.
Základním cílem shlukové analýzy (v české literatuře se lze setkat též s jinými názvy, např. seskupování souborů, analýza shluků či obecně explorační-průzkumová analýza dat) je zařadit objekty do skupin (shluků), a to především tak, aby dva objekty ze stejného shluku si byly více podobné než dva objekty z různých shluků. Základní přístup shlukové analýzy je takový, že každý objekt je jednoznačně zařazen do jednoho shluku. Přitom reálné objekty mohou být různého charakteru: shlukovat lze živé organismy, stejně jako textové dokumenty nebo webové stránky. Shlukování je označováno jako jeden ze základních typů získávání znalostí, a to bez ohledu na skutečnost, zda jsou pro dosažení cíle použity statistické metody, nebo metody strojového učení. S rozvojem matematicky orientovaných vědních oborů je pro shodnou problematiku používána v různých oborech různé názvosloví. Pro čtenáře, který chce získat nadhled, je proto mnohdy dosti obtížné číst literaturu z různých vědních disciplín, přestože jde o popis technik, které mají stejný účel.
Cílem knihy, nové původní monografie, je seznámit širší okruh zájemců se skupinou metod, které umožňují v analyzovaných datech nalézt určité skryté struktury a prezentovat je jako skupiny podobných objektů. Autoři (doc. Ing. H. Řezanková, CSc., Ing. D. Húsek, CSc., prof. RNDr. V. Snášel, CSc.) rozčlenili knihu do pěti kapitol.
V úvodní kapitole je vymezena obecná problematika shlukování dat a jsou charakterizovány různé typy analýz (shlukování a klasifikace, prvky shlukování, předzpracování souboru dat, problematika velkých souborů dat, zmenšování rozměru úlohy). Druhá kapitola se nejdříve zabývá základními pojmy používanými v souvislosti se shlukovou analýzou a poté přípravou souboru dat pro analýzu. Zvláštní pozornost je věnována postupům používaným v případě velkých souborů dat, a to zejména metodám určeným ke zmenšení rozměru řešených úloh. Obsahem třetí kapitoly je měření podobnosti mezi prvky, které mají být shlukovány. Samostatnou část tvoří problematika analýzy dichotomických dat, kdy soubor dat obsahuje pouze dvě varianty hodnot (obvykle 0 a 1).
Ve čtvrté kapitole jsou vysvětleny jednotlivé metody shlukové analýzy. Vedle tradičních metod, obvykle zařazovaných do publikací zaměřených na mnohorozměrnou analýzu dat, je pozornost věnována jednak jejich modifikacím, jednak principiálně novým přístupům. Některé z nich jsou založeny na principech fungujících v živých organismech. Těmi se zabývá poslední kapitola, pátá, prezentující přehled výsledků výzkumu v oblasti biologicky inspirovaných metod (umělých neuronových sítí a genetických algoritmů).
Co se týče použití metod shlukové analýzy v praxi, v posledních několika letech je pozornost zaměřena zejména na shlukování dokumentů (v oblasti vyhledávání informací také atributů), ať již klasických textových, nebo webových. Se vzrůstajícím rozsahem informačních zdrojů roste potřeba jejich uspořádávání; to je úloha těsně související právě se shlukováním. Význam shlukové analýzy spočívá v tom, že usnadňuje vyhledávání informací (nejen pocházejících např. z oblasti přírodních nebo společenských věd, ale také vytvořených záměrně a plánovitě za účelem analýzy pro jiné potřeby – pro účetnictví, evidenci obyvatel či pacientů apod.), které jsou potřebné ve všech oblastech lidského života. Je tedy důležitá nejen jako předmět výuky studentů, pro vědecký výzkum v různých oblastech, marketing, řízení analytických oddělení firem apod., ale též pro běžné činnosti, jako je nakupování, cestování atd.
Lze říci, že autoři svou knihou, koncipovanou jako pomůcka na podporu uplatnění metod shlukové analýzy v naznačených oblastech v praxi, dosáhli vytčeného cíle.
(tes)