The paper deals with the problem of suitable modeling of discrete data, specically transportation data. A general discrete model is the categorical one. However, for more modelled variables the model suffers from troubles with its practical implementation. That is why another known discrete variables are tested as candidates for the modelling. Especially the binomial, geometrical, Poisson and uniform distributions are taken into account.
1. Úvod
Matematický model je základním prostředkem pro analýzu nebo ovládání zkoumaného reálného systému. Matematické algoritmy analýzy nebo řízení pracují s modelem a hledají souvislosti na modelu nebo se snaží dosáhnout požadovaného stavu modelu. Jestliže model odpovídá reálné soustavě, pak to, co platí pro model, platí i pro soustavu. Jakmile model soustavě neodpovídá, výsledky jsou chybné právě pro chybu modelování.
Model je popisem modelované veličiny y. Je to veličina, která má být modelem popsána a která bude dále analyzována nebo řízena a o které se předpokládá, že je pod vlivem neurčitosti. Jde tedy o náhodnou veličinu. Vlivem neurčitosti nelze určit její hodnotu, ale jen množinu přípustných hodnot a jejich pravděpodobnosti nebo pravděpodobnosti intervalů těchto hodnot. Krátce řečeno, náhodná veličina je určena svou distribucí (hustotou pravděpodobnosti nebo pravděpodobnostní funkcí).
Obecný tvar pravděpodobnostního modelu je tedy
rovnice (1)
podle toho, zda je modelován jen výstup y samotný, nebo jeho závislost na vektoru vedlejších veličin x = [x1; x2… xn].
Modelem ale může být i cokoliv jiného (rovnice, tabulka apod.), co uvedené distribuce definuje. Nejznámější případ se týká spojitých veličin a nazývá se regresní model. Zde je distribuce výstupu definována diferenční rovnicí a tzv. šumem.
Diskrétní model je většinou dán přímo některým ze známých rozdělení: alternativní, binomické, Poissonovo, geometrické, negativně binomické, hypergeometrické, rovnoměrné apod. Tato rozdělení se liší svými pravděpodobnostními funkcemi. Výsostné postavení mezi diskrétními modely má rozdělení kategorické. Je to diskrétní rozdělení s konečným počtem různých hodnot a pro každou hodnotu definuje svou vlastní pravděpodobnost, bez ohledu na sousední hodnoty. To je velká výhoda, protože pomocí tohoto rozdělení lze napodobit nebo aproximovat jakékoliv jiné diskrétní rozdělení. Je to však také nevýhoda, protože tabulka, kterou je rozdělení dáno, mívá ve složitějších případech obrovské rozměry. V tomto článku se autoři budou zabývat výhradně diskrétními veličinami.
Konstrukce matematického modelu založeného na měřených datech má dvě základní fáze: návrh struktury a odhad parametrů.
První fáze je návrh struktury modelu. V této počáteční fázi se především volí veličiny, které budou do modelu vstupovat:
- Hlavní modelovaná veličina je výstup modelu y. Pro odhad musí být tato veličina měřena.
- Popis výstupu se většinou hledá v závislosti na jiných měřených veličinách shrnutých ve vektoru x. Při jejich výběru je třeba dát pozor, aby výstup skutečně ovlivňovaly a aby neexistovaly další veličiny, jejichž působení na výstup by bylo podstatné. Názorně řečeno – veličiny vybrané do x musí vysvětlovat chování y až na neovlivnitelné chyby, které se zahrnou do šumu modelu.
- Dále je třeba rozhodnout o tom, zda model bude statický, nebo dynamický. V případě dynamického modelu bude vektor x obsahovat také zpožděné hodnoty výstupu y.
- Velmi důležitá je také volba rozdělení modelované veličiny (a tedy i modelu). Je-li např. modelována rychlost automobilů v koloně, nelze zvolit běžně používané normální rozdělení (rychlosti jsou nezáporné a maximum četností není v nule).
Druhou fází je odhad parametrů modelu.
Poté, co je navržena struktura modelu, je třeba jej ještě „ztotožnit“ s reálnou soustavou. Pod slovem ztotožnit mají autoři na mysli to, že model bude na stejné vstupy dávat velmi podobné výstupy (predikce) jako reálná soustava. Tomuto procesu se říká odhad modelu a provádí se na základě měřených dat.
Tématem tohoto článku je modelování a odhad veličin. Pracuje s dopravními daty a cílem je metody analýzy těmto datům přizpůsobit. Standardní postup je takový, že se pro spojité veličiny volí normální rozdělení, které je však symetrické a nelze ho použít na nezáporné veličiny. Pro diskrétní veličiny se zpravidla používá kategorické rozdělení, jehož nevýhodou je, že s rostoucím počtem proměnných se exponenciálně zvětšuje rozměr odhadových statistik. Tento jev se nazývá „prokletí dimenzionality“, a proto je snaha nepoužívat kategorické rozdělení, a hledat v naměřených datech jejich konkrétní diskrétní rozdělení – binomické, Poissonovo, geometrické nebo rovnoměrné – s cílem lépe vystihnout rozdělení dat danou distribucí nebo redukcí parametrů. Jsou-li data blízká jinému rozdělení, tedy splňují dané kritérium, toto rozdělení se použije. Kritériem je shoda histogramů simulovaných a predikovaných dat, která porovnává skutečnou hodnotu s předpovědí z modelu.
Při zkoumání povahy dat se vychází z histogramů, které zobrazují četnosti hodnot diskrétních veličin nebo četnosti hodnot v intervalech pro spojité veličiny pomocí sloupcového grafu. Podle histogramů dat se hledají pravděpodobnostní rozdělení, která se jim podobají. Je třeba vytvořit databázi rozdělení, která lze rekurzivně odhadovat (vlastně rozdělení z exponenciální třídy). To znamená, že pro každé rozdělení se vytvoří program, který odhadne parametry, simuluje data a vykreslí jejich histogram. Histogramy původních a simulovaných dat se následně porovnají.
Zde autoři do této databáze rozdělení vybrali binomické rozdělení, Poissonovo rozdělení, geometrické rozdělení a rovnoměrné rozdělení.
2. Současný stav problematiky
Modelování je základním prvkem řešení všech úloh analýzy nebo řízení, které jsou založeny na měřených datech. Proto pojednání zabývajících se podstatou modelování není mnoho. Většinou se úloha postaví na nějakém modelu (vstup–výstup, stavový model, model v Laplaceově operátoru atd.) a dále se řeší samotná úloha. Přitom vhodná konstrukce modelu je pro většinu úloh zcela rozhodující a měla by vždy být řešena ve spolupráci statistika a odborníka v oboru, pro který je model vytvářen.
To, co lze na webu o modelování nalézt, jsou spíše přehledy různých modelů než zkoumání, jak známý model přiblížit realitě.
Článek [1] podává velmi hezké pojednání o matematickém modelování z velmi širokého úhlu pohledu. Je zde uvedena motivace pro uvažování matematických modelů a cíle jejich využití. Zabývá se především konstrukcí modelů, testováním jejich kvality a následným využitím. V souladu s přesvědčením autorů tohoto článku se zde říká, že kvalitní model musí být úzce svázán s předpoklady danými modelovanou realitou – použití obecného modelu v konkrétním případě může být příliš obecné a může ignorovat zvláštní rysy modelovaného systému. Značná pozornost se věnuje validaci navrženého modelu a jejím různým aspektům. Způsob validace nutně závisí na účelu, pro který byl model konstruován. Jde-li o model predikční, je důležitým prvkem validace posouzení chyby predikce.
Pojednání [2] diskutuje problematiku matematického modelování z globálního pohledu. Formálně se zde definují základní pojmy modelování, jako např. systém, model, simulace, stav systému, stacionarita apod. Po tomto formálním úvodu je tu podána klasifikace modelů, zejména pro black-box modely a stavové modely.
Určitě do této problematiky patří také učební text [3], kde se uvádí přehled základních modelů většinou souvisejících přímo s některým rozdělením náhodné veličiny. Čtenář zde najde velké množství příkladů, které ilustrují využití jednotlivých modelů.
Článek [4] uvádí velmi podrobný výčet nejrůznějších typů modelů od fyzikálních až po black-box modely.
Zpráva [5] pojednává o modelování z poněkud odlišného úhlu. V první části článku se zavádějí pojmy z teorie informace a jejich využití pro konstrukci modelu. Dále se pracuje s Laplaceovou transformací.
Referát [6] se zabývá problematikou automatického generování modelu na základě měřených dat. Předpokládá se rozklad modelu na elementární části (komponenty nebo bloky), ze kterých se pak sestavuje celý výsledný model. Model se navrhuje nejdříve z hlediska jeho struktury a potom jeho celkového chování.
Knížky [7], [8], [9] a [10] podávají velmi široké a vyčerpávající pojednání o modelování. Knihy [7], [8] a [9] jsou zaměřeny na bayesovské metody modelování. Pojednávají o základech bayesovství, dále zmiňují základní bayesovské postupy jako Gibbs sampling nebo metody MCMC (Markov Chains Monte Carlo). Věnují se též regresním modelům nebo modelům směsi. Kniha [10] diskutuje základní principy fyzikálního modelování většinou na základě jednoduchých fyzikálních zákonů. Dále pojednává o základních matematických modelech a v závěrečné kapitole o modelech složitých reálných procesů.
3. Známá diskrétní rozdělení
Pro každé rozdělení je třeba znát pravděpodobnostní funkci
rovnice (2)
kde
x je náhodná veličina,
θ parametry distribuce,
a věrohodnostní funkci (likelihood), která je součinem modelů (distribucí dané náhodné veličiny) s postupně dosazenými hodnotami z datového souboru X = {x1; x2… xN}
rovnice (3)
Ještě je třeba znát vývoj statistik, tj. funkci dat, kterými je funkce likelihood určena.
Pro využití v praxi je důležité, aby bylo možné s přicházejícími daty z datového souboru přepočítávat statistiky rekurzivně v uzavřeném tvaru, tj. aby odhad byl dán vzorcem, jehož tvar se s přibývajícími daty nemění, jen se přepočítávají jeho statistiky. Například statistika Si, součet, se počítá takto
rovnice (4)
Bodový odhadθˆ parametru θ. Tento bodový odhad se určí metodou maximální věrohodnosti, tedy tak, že se likelihood derivuje podle parametru a derivace se položí rovna nule. Vypočítané parametry jsou bodovými odhady a jsou definovány pomocí statistik.
Dále jsou popsána vybraná rozdělení, ke kterým jsou vytvořeny programy umožňující predikci dat. U každého je uvedena jeho distribuce, likelihood, přepočet statistik a bodový odhad jeho parametrů.
3.1 Binomické rozdělení
Binomické rozdělení udává pravděpodobnost, že přesně x pokusů ze série n nezávislých alternativních pokusů bude úspěšných. Modeluje tedy veličinu s n + 1 hodnotami, většinou označenými jako 0, 1, 2… n. Důležité pro modelování je, že hodnoty musí pocházet z nezávislých pokusů.
Pravděpodobnostní funkce je:
rovnice (5)
Odhad likelihood:
rovnice (6)
Vývoj statistik:
rovnice (7)
Bodový odhad:
rovnice (8)
Pravděpodobnostní funkce binomického rozdělení je znázorněna na obr. 1.
3.2 Poissonovo rozdělení
Poissonovo rozdělení je zobecněné binomické rozdělení pro p → 0 a n → ∞. Experiment vychází z n pokusů a určuje se počet úspěchů za podmínky, že úspěch je velmi nepravděpodobný p → 0 a počet pokusů je velmi velký n → ∞. Pro modelování je toto rozdělení vhodné, jestliže se sledují určité události (např. příchody zákazníků do obchodu), které se dějí s danou a pevnou intenzitou (tedy počet zákazníků za jednotku času), a zajímavé jsou pravděpodobnosti, že nastane právě x událostí (vstupů zákazníků). Modelovaná veličina může nabývat všech celočíselných nezáporných hodnot 0; 1; 2… λ.
Pravděpodobnostní funkce je
rovnice (9)
pro x = 0; 1; 2… a λ > 0 je intenzita Poissonova rozdělení.
Odhad: likelihood
rovnice (10)
kde κN = N a
Vývoj statistik:
rovnice (11)
Bodový odhad:
rovnice (12)
Pravděpodobnostní funkce Poissonova rozdělení je na obr. 2.
3.3 Geometrické rozdělení
Geometrické rozdělení popisuje diskrétní náhodnou veličinu, jejíž hodnoty vyjadřují počet neúspěchů před prvním úspěchem při opakovaných nezávislých alternativních experimentech. Hodnoty této náhodné veličiny jsou 0; 1; 2… ∞.
Pravděpodobnostní funkce:
rovnice (13)
pro x = 0; 1; 2… ∞ a p Î (0; 1).
Odhad: likelihood je
rovnice (14)
kde κN = N a
Vývoj statistik:
rovnice (15)
Bodový odhad:
rovnice (16)
Pravděpodobnostní funkce geometrického rozdělení je znázorněna na obr. 3.
3.4 Rovnoměrné rozdělení
Rovnoměrné rozdělení má dvě důležité vlastnosti. Je zdola i shora ostře omezené a modeluje situaci, kdy v rámci daných hodnot nejsou žádné preference.
Náhodná veličina x má hodnoty 1; 2… n, kde n je neznámý parametr rozdělení, který se bude odhadovat.
Pravděpodobnostní funkce je:
rovnice (17)
pro x = 1; 2… N
Odhad: likelihood je
rovnice (18)
a musí platit
odkud plyne
Maximalizace funkce likelihood vede na podmínku n ® 0.
Spojením obou podmínek je bodový odhad n
Maximum lze rekurzivně hledat podmínkou
kde n se inicializuje např. nulou.
Pravděpodobnostní funkce rovnoměrného rozdělení je na obr. 4.
4. Simulovaná data
U reálných dat není přesný model znám. Proto autoři začnou experimenty se simulovanými daty. Základem experimentů se simulovanými daty je výběr konkrétních rozdělení, pro která budou simulace provádět. Byla vybrána celkem čtyři diskrétní rozdělení popsaná v kapitole 3.
Kategorické rozdělení je obecné, a proto je možné pomocí tohoto rozdělení generovat data s libovolným histogramem. U kategorického rozdělení je pravděpodobnost každé hodnoty definována zvlášť.
Tuto možnost využijí a vygenerují data podobná konkrétním uvažovaným rozdělením (binomické, Poissonovo, geometrické a rovnoměrné rozdělení) a zjišťují citlivost chyby rozdělení pro odhad parametrů. Následující obrázky ukazují napodobení uvažovaných rozdělení simulovaných pomocí kategorického modelu. Na obr. 5 je histogram simulace binomického a Poissonova rozdělení.
Binomické rozdělení je symetrické a jeho vizuální podoba připomíná normální rozdělení, naopak Poissonovo rozdělení je silně asymetrické. Na obr. 6 je vykreslen histogram simulace geometrického a rovnoměrného rozdělení. Geometrické rozdělení je rovněž asymetrické a jeho modus se nachází v nule. Rovnoměrné rozdělení pokrývá všechny hodnoty rovnoměrně.
5. Reálná data
Pro modelování byla k dispozici naměřená dopravní data nehod, která autorům poskytl Magistrát hlavního města Prahy. Pro zkoumání nehod bylo možné využít celkem 25 veličin. Ty autoři vzali jako základní množinu, ze které vybrali ty veličiny, kde by jejich nekategorické modelování mohlo být účinné. Data pro modelování lze rozdělit do tří skupin: nevhodná, možná a vhodná. Z vhodných dat se autoři zaměří na ta, jejichž histogram připomíná některá z vybraných rozdělení. Důvodem tohoto výběru je zjištění, zda je postup zvolen správně. Bylo vybráno pět typů dat, kterými se autoři budou zabývat:
- druh nehody (srážka s vlakem, srážka s chodcem, srážka s pevnou překážkou a další),
- druh srážky jedoucích vozidel (čelní, boční, zezadu a další),
- viditelnost (ve dne – zhoršená viditelnost, v noci – s veřejným osvětlením apod.),
- typ komunikace (dvoupruhová, třípruhová, rychlostní komunikace apod.),
- počet zúčastněných vozidel (skutečný počet vozidel).
Kódování veličin, tedy přiřazení čísel jejich hodnotám popsaným slovně, bylo zachováno tak, jak je uvedeno v dotaznících, které autoři měli k dispozici od Magistrátu hlavního města Prahy. Tyto hodnoty jsou voleny tak, aby s rostoucí hodnotou klesal význam proměnné vzhledem k závažnosti nehod. Nicméně lze konstatovat, že volba hodnot veličin je nesmírně důležitá a otázkou, jak vhodně tyto hodnoty volit, se autoři budou dále intenzivně zabývat. Tato volba je ještě důležitější, jestliže je cílem diskrétní data modelovat spojitě (např. regresí). Pak je třeba vycházet z četností hodnot získaných z apriorních dat.
Četnosti hodnot pro druh nehody a druh srážky jedoucích vozidel jsou znázorněny na obr. 7.
Histogram pro druh nehody se podobá Poissonovu rozdělení, jehož modus je mimo nulu, a histogram pro druh srážky jedoucích vozidel představuje zřejmě směs dvou rozdělení.
Na obr. 8 jsou četnosti hodnot pro viditelnost a dělení komunikace. Histogram viditelnosti má modus v nule, ale jeho zbylá část připomíná binomické rozdělení, proto jde o směs. U histogramu pro dělení komunikace je to jiné, ten se na první pohled jeví jako geometrické rozdělení.
Četnosti počtu zúčastněných vozidel jsou znázorněny na obr. 9. Tento histogram má modus v hodnotě 2.
Zde je do několika bodů shrnutý postup, který je použit pro modelování a odhad naměřených dopravních veličin. V první fázi autoři získali dopravní data, z nichž se vytvořil histogram, na základě tohoto histogramu se vybralo několik vhodných rozdělení. Následně se určil odhad parametrů maximalizací likelihoodu pro každé vybrané rozdělení. V další fázi se pro každé rozdělení vygenerovala simulovaná data a opět se vytvořily histogramy. Posléze se porovnaly histogramy naměřených a nasimulovaných dat a určila se podobnost pomocí směrodatné odchylky rozdílů sloupečků obou histogramů. Tento postup je znázorněn na obr. 10. Cílem je zjistit, že pro danou veličinu existuje jiné rozdělení, které generuje podobný histogram, jako mají původní data.
6. Experimenty se simulovanými daty
V první fázi experimentů by autoři rádi zjistili, jak citlivý je odhad při neshodě rozdělení, z něhož jsou data simulována, a toho, které se předpokládá v modelu. K tomu budou data simulovat přímo z určitého rozdělení a zkoušet odhad pomocí modelu s jiným rozdělením. Tímto způsobem zjistí základní fakta: která rozdělení jsou si blízká a naopak která nelze vzájemně ani aproximativně zaměnit.
Jako kritérium shody vezmou podobnost histogramu ze simulovaných dat a histogramu predikce z odhadnutého modelu s testovaným rozdělením.
V následujících obrázcích budou ukázány výsledky pro data simulovaná z binomického rozdělení přímo na histogramech. Ostatní výsledky jsou z důvodu úspory místa prezentovány jen numericky v tabulce. Prostřednictvím kategorického rozdělení je na obr. 11 vykreslen histogram simulovaného binomického rozdělení. To je následně odhadnuto pomocí binomického, Poissonova, geometrického a rovnoměrného rozdělení. Histogramy pro odhad jednotlivých rozdělení jsou znázorněny na obr. 12.
Pomocí kategorického rozdělení autoři simulovali nejen binomické rozdělení, ale i všechna ostatní vybraná rozdělení, pro která prováděli stejný odhad. Simulací bylo celkem dvanáct a jednotlivé výsledky kritéria neboli hodnoty odmocniny z průměru kvadrátů odchylek sloupců v histogramech jsou vypsané v tab. 1 a tučně jsou vyznačené nejlepší výsledky.
Simulace lze rozdělit do tří skupin. Ve skupině A autoři simulovali přesně ze čtyř vybraných rozdělení a odhadovali modelem se stejným rozdělením. Stejně tak ve skupině B jsou výsledky, kdy simulovali s kategorickým modelem, který byl nastaven tak, aby se co nejvíce podobal daným rozdělením. Ve skupině C jsou výsledky obdobné jako ve skupině B, ale s větší odchylkou od vybraných rozdělení.
Ve všech případech vyšlo nejlépe to rozdělení, které se modelovalo. Z výsledků ve skupině A je patrné, že nejlepší odhad dává binomické a rovnoměrné rozdělení, jejichž hodnota kritéria se v obou případech pohybuje kolem jedné, oproti Poissonovu a geometrickému rozdělení, kde je výsledkem poměrně velká chyba. O těchto dvou rozděleních je možné dále říct, že jsou citlivá na jakoukoliv změnu, která ovšem může být způsobená generátorem v programu. Všechny nejlepší výsledky ukazují, že ačkoliv se histogramy vzdalují modelovanému rozdělení, stále je dané rozdělení rozeznané, a čím více se histogram vzdaluje modelu, tím jsou kritéria více podobná a zmenšují se rozdíly.
7. Experimenty s reálnými daty
Cílem těchto experimentů je porovnat kvalitu odhadu reálného datového vzorku pomocí modelů s vybranými typy rozdělení. Jako reálná data budou využity hodnoty sebraných dat nehod diskutovaných v kapitole 5. Přitom se bude postupovat obdobně jako pro simulovaná data. Vybraný model s daným rozdělením se odhadne na základě reálných dat. Z odhadnutého modelu se predikují (vlastně simulují) nová data, která se porovnají s daty v původním reálném vzorku.
V tomto případě (na rozdíl od simulovaných dat) nejsou známa rozdělení, z něhož data pocházejí. Dokonce lze předpokládat, že to není žádné z uvažovaných rozdělení používaných pro odhad. Z podstaty použité veličiny se lze jen dohadovat o způsobu jejího generování, ale v každém případě při odhadu jde o aproximaci. Konečné posouzení tedy vychází pouze ze srovnání dat použitých pro odhad a dat predikovaných odhadnutým modelem. Výsledky experimentů s reálnými daty jsou uvedené v tab. 2.
Důležitou roli hraje i počáteční nastavení modelu při odhadování, tj. využití apriorní informace, kterou lze získat z naměřených dat. Pro tento účel poslouží znalost významu parametrů uvedených v přehledu rozdělení v kapitole 3.
První simulace (druh nehody) má výsledek nejednoznačný, jelikož se nejlepší hodnota projevila jak pro odhad binomickým rozdělením, tak i Poissonovo rozdělení, a zvýrazněné jsou tedy obě hodnoty. Druhá, třetí a čtvrtá simulace (druh srážky, viditelnost, dělení komunikace) nejlépe vystihnou datový vzorek pomocí geometrického rozdělení. Pátá simulace (počet zúčastněných vozidel, v jehož histogramu jsou zastoupeny jen hodnoty 1, 2 a 3) neodpovídá žádnému z uvažovaných rozdělení.
8. Závěr
Tato práce shrnula, jak je možné modelovat a odhadovat naměřené dopravní veličiny pomocí nekategorického rozdělení. Z experimentů se simulovanými daty byly vybrány nejvhodnější modely a dále byly testovány na reálných datech. V případě čtvrté simulace s reálnými daty (dělení komunikace) vyšel výsledek velmi „přívětivě“ a je možné říct, že vybraný vzorek dat lze nahradit geometrickým rozdělením. Naopak u páté simulace (počet zúčastněných vozidel) je nejlepší výsledek s velkou chybou a žádné z rozdělení není dostačující k tomu, aby nahradilo kategorické rozdělení. Následující výzkum bude zaměřen na využití metody směsí distribucí jako modelu pro odhad diskrétních dat. Tato metoda umožňuje vybírat hodnoty z různých rozdělení neboli kombinaci několika rozdělení pro lepší zachycení reálného datového vzorku.
Literatura:
[1] GLENN, Marion a Daniel LAWSON. An Introduction to Mathematical Modelling [online]. Bioinformatics and Statistics Scotland, 2008 [cit. 2020-01-13]. Dostupné z: https://people.maths.bris.ac.uk/~madjl/course_text.pdf
[2] DYM, Clive L. Principles of mathematical modeling. 2nd ed. Boston: Elsevier Academic Press, c2004. ISBN 01-222-6551-3.
[3] NEUBAUER, Jiří. Modely diskrétní náhodné veličiny [online]. Brno: katedra ekonometrie, FVL, UO, 2014 [cit. 2020-01-13]. Dostupné z: https://k101.unob.cz/~neubauer/pdf/diskretni_modely.pdf
[4] WEI, Hua-Liang. Data Driven Modelling for Complex Systems: Senior Lecturer in System Identification and Data Analytics [online]. Sheffield, UK: Complex Systems & Signal Processing Research Group, Department of Automatic Control & System Engineering, University of Sheffield, 2017 [cit. 2020-01-13]. Dostupné z: https://ssg.group.shef.ac.uk/progress/dissemination/summer_school_Data_Driven_Modelling.pdf
[5] GIANNAKIS, Dimitrios a Andrew J. MAJDA. Ata-driven methods for dynamical systems: Quantifying predictability and extracting spatiotemporal patterns [online]. New York: Center for Atmosphere Ocean Science, Courant Institute of Mathematical Sciences, New York University, 2013 [cit. 2020-01-13]. Dostupné z: https://pdfs.semanticscholar.org/8f8c/3637b8b866d6379459bdd0a51df5b7632c7a.pdf?_ga=2.8112817.284064000.1578932753-1021135207.1578932753
[6] HUANG, Yilin, Mamadou D. SECK a Alexander VERBRAECK. From data to simulation models: Component-based model generation with a data-driven approach. Proceedings of the 2011 Winter Simulation Conference (WSC) [online]. IEEE, 2011, 2011, 3719–3729 [cit. 2020-01-13]. DOI: 10.1109/WSC.2011.6148065. ISBN 978-1-4577-2109-0. Dostupné z: http://ieeexplore.ieee.org/document/6148065/
[7] LYNCH, Scott M. Introduction to applied Bayesian statistics and estimation for social scientists [online]. New York: Springer, c2007 [cit. 2020-01-13]. ISBN 978-0-387-71264-2.
[8] PUZA, Borek. Bayesian Methods for Statistical Analysis. 2015-10-16. DOI: 10.22459/BMSA.10.2015.
[9] CONGDON, P. Applied Bayesian modelling. Second edition. Chichester, West Sussex: John Wiley, 2014. ISBN 978-1-119-95151-3.
[10] SAMARSKII, A. A. a A. P. MIKHAILOV. Principles of mathematical modeling: ideas, methods, examples. New York, 2002. ISBN 978-0-415-27281-0.
About authors:
Šárka Jozová is a Ph.D. student in the Faculty of Transportation Sciences, Prague. Her interest lies in modeling of discrete data.
Ivan Nagy is a teacher of the Bayesian statistics in the Faculty of Transportation Sciences and a research worker in the Institute of Information Theory and Automation, also in the field of Bayesian probability and statistics.
Ing. Šárka Jozová, Fakulta dopravní ČVUT v Praze (jozovsar@fd.cvut.cz),
doc. Ing. Ivan Nagy, CSc., Fakulta dopravní ČVUT v Praze a ÚTIA AV ČR v Praze
Lektorský posudek: doc. Ing. Marek Omelka, Ph.D., MFF Univerzity Karlovy v Praze
Obr. 1. Binomické rozdělení
Obr. 2. Poissonovo rozdělení
Obr. 3. Geometrické rozdělení
Obr. 4. Rovnoměrné rozdělení
Obr. 5. Simulace pro binomické rozdělení (vlevo) a Poissonovo rozdělení (vpravo)
Obr. 6. Simulace pro geometrické rozdělení (vlevo) a rovnoměrné rozdělení (vpravo)
Obr. 7. Druh nehody (vlevo) a druh srážky jedoucích vozidel (vpravo)
Obr. 8. Viditelnost (vlevo) a dělení komunikace (vpravo)
Obr. 9. Počet zúčastněných vozidel
Obr. 10. Postup pro výběr vhodného rozdělení
Obr. 11. Histogram simulovaných dat
Obr. 12. Histogramy pro odhad využívaných rozdělení
Tab. 1. Souhrn výsledků experimentů se simulovanými daty
| Simulace | Binomické rozdělení | Poissonovo rozdělení | Geometrické rozdělení | Rovnoměrné rozdělení |
A | 1. binomické rozdělení | 0,842 | 6,315 | 16,985 | 13,154 |
2. Poissonovo rozdělení | 7,464 | 4,356 | 11,506 | 10,855 |
3. geometrické rozdělení | 19,161 | 16,066 | 4,925 | 16,807 |
4. rovnoměrné rozdělení | 12,718 | 7,886 | 6,788 | 1,155 |
B | 5. binomické rozdělení | 5,069 | 8,207 | 15,949 | 13,099 |
6. Poissonovo rozdělení | 9,481 | 6,766 | 9,886 | 10,889 |
7. geometrické rozdělení | 20,198 | 18,239 | 7,732 | 17,117 |
8. rovnoměrné rozdělení | 12,727 | 8,748 | 7,542 | 3,295 |
C | 9. binomické rozdělení | 6,625 | 9,247 | 15,443 | 13,370 |
10. Poissonovo rozdělení | 10,499 | 8,029 | 12,025 | 10,861 |
11. geometrické rozdělení | 20,115 | 18,451 | 8,145 | 16,151 |
12. rovnoměrné rozdělení | 12,235 | 8,228 | 9,185 | 5,576 |
Tab. 2. Souhrn výsledků experimentů s reálnými daty
Simulace | Binomické rozdělení | Poissonovo rozdělení | Geometrické rozdělení | Rovnoměrné rozdělení |
druh nehody | 18,284 | 18,043 | 27,714 | 31,412 |
druh srážky | 33,003 | 27,368 | 18,619 | 19,697 |
viditelnost | 45,104 | 41,516 | 27,520 | 41,455 |
dělení komunikace | 13,952 | 12,707 | 5,805 | 30,783 |
počet zúčastněných vozidel | 36,352 | 34,284 | 36,642 | 42,762 |