Aktuální vydání

celé číslo

03

2021

Digitální transformace, chytrá výroba, digitální dvojčata

Komunikační sítě, IIoT, kybernetická bezpečnost

celé číslo

Současné metody rozpoznávání obrazů

Současné metody rozpoznávání obrazů

Cenu Akademie věd ČR udělovanou za vynikající výsledky ve vědeckém výzkumu získal letos tým z Ústavu teorie informace a automatizace AV ČR (ÚTIA AV ČR) ve složení: prof. Ing. Jan Flusser, DrSc., Ing. Filip Šroubek, Ph.D., RNDr. Barbara Zitová, Ph.D., a Ing. Tomáš Suk, CSc., za vědeckou práci Rozpoznávání objektů pomocí fúze obrazů z různých zdrojů. Oceněná práce patří do oboru umělé inteligence, přesněji do části automatického rozpoznávání objektů na reálných snímcích s využitím počítače.

Úvod

Rozpoznávání objektů z jediného snímku je nespolehlivé, často dokonce nemožné, a proto je snaha používat pro analýzu scény více snímků současně. Existuje však závažný principiální problém, který tomu brání: v praxi bývají snímky pořízeny z různých míst a v různé době a liší se od sebe i spektrálním pásmem a kvalitou. Řešitelskému týmu se podařilo vyvinout metodu využívající tzv. fúzování obrazu (Image Fusion), která umožňuje kombinováním několika vstupních snímků téže scény získat jediný, kvalitnější obraz. Pojem „kvalita“ a její měření závisejí na konkrétním použití – někdo potřebuje maximální prostorové rozlišení, jiného uživatele zajímá detekce změn a dalšího zvýšení barevného rozsahu za hranice viditelného světla.

Výzkum probíhal v letech 2002 až 2006 a v jeho průběhu byly postupně řešeny tyto dílčí úlohy:

  • geometrické sesazení (registrace) jednotlivých snímků,
  • odstranění poškození snímků (degradací), zejména rozmazání snímků a šumu,
  • zvýšení prostorového rozlišení snímků, tzv. super-resolution.

Ve všech dílčích úlohách bylo dosaženo původních teoretických výsledků, úspěšně publikovaných v předních vědeckých časopisech a v monografiích. Po důkladném testování byly nové metody spolu s některými známými algoritmy implementovány ve formě dvou toolboxů pro systém Matlab. Oba byly vybaveny grafickým uživatelským rozhraním a podrobnou uživatelskou příručkou. Toolbox Imare obsahuje metody pro registraci obrazů, toolbox Imres zahrnuje metody pro odstranění degradací obrazu a zvýšení prostorového rozlišení. Oba toolboxy jsou pro nevýdělečné účely zájemcům k dispozici zdarma na vyžádání. Řešitelský tým dnes eviduje přibližně 400 uživatelů z celého světa.

Geometrické sesazení neboli registrace obrazů

Cílem registrace obrazů je překrýt snímky přes sebe tak, aby si stejné objekty přesně odpovídaly. Tento proces je při fúzování obrazů klíčový – pokud nebude dobře zvládnut, nemají žádné další algoritmy šanci na úspěch. Při registraci je nejdůležitějším okamžikem nalezení významných objektů na každém snímku a jejich spárování přes všechny zpracovávané snímky. Jestliže se tento krok povede, registraci lze snadno dokončit s využitím vhodné prostorové transformace snímků. V oblasti, kde mají registrované snímky překryv, lze přistoupit k dalším krokům fúze (obr. 1).

Odstranění degradací

Jedním z prvotních cílů, které si řešitelský tým z UTIA vytkl, bylo odstranit či alespoň potlačit pomocí fúze snímků některé často se vyskytující degradace obrazu. Šlo zejména o rozmazání snímků vlivem špatného zaostření nebo pohybu fotoaparátu a o náhodný aditivní šum. Rozmazání je jev, který má matematicky charakter nízkofrekvenčního filtru a je popsán tzv. konvolucí, na kterou se lze dívat jako na zobecněné průměrování v okolí každého bodu obrazu. Bez přesné znalosti „rozmazávající“ funkce (tj. konvolučního jádra) nelze rozmazání odstranit. Je-li však k dispozici několik různě rozmazaných snímků téhož objektu, je možné jejich fúzováním s využitím tzv. vícekanálové slepé dekonvoluce získat velmi dobrý odhad originálu.

Výsledkem výzkumu v této oblasti je nová metoda pro vícekanálovou slepou dekonvoluci. Místo řešení složité a špatně podmíněné soustavy integrálních rovnic najde tato metoda odhad obrazu jako minimum vhodně zvolené „účelové funkce“. Hlavním pokrokem oproti dosavadním metodám je její mnohem větší robustnost a volnější předpoklady o vstupních datech. Díky tomu tato metoda funguje jako první na běžných reálných snímcích z digitálního fotoaparátu či mobilního telefonu a uplatní se v mnoha oborech (obr. 2).

Další všudypřítomné poškození obrazových dat představuje náhodný šum. V některých případech je míra šumu tak velká, že se jeho potlačení stává jedním z hlavních problémů. Nejběžnější typ šumu, aditivní šum, si lze představit jako přičítání náhodných čísel k hodnotám daného obrázku, a to v každém jeho bodě a v každé barevné složce. Pokud má takový šum nulovou střední hodnotu, je možné ho potlačit průměrováním barevných úrovní v jistém okolí. To však nevyhnutelně vede ke ztrátě detailů a k nežádoucímu rozostření hran. Důmyslnější metody proto pracují na principu selektivního vyhlazování obrazu. Obrazová funkce je aproximována dostatečně „ohebnými“ funkcemi (např. funkcemi spline), kterými jsou zadány vazební podmínky v okolí hran. Díky tomu je obraz vyhlazován jen uvnitř homogenních ploch, a nedochází k tak velké ztrátě ostrosti obrazu. Přesto má výsledek ještě daleko k dokonalosti. V praxi se navíc šum i rozmazání obrazu často vyskytují zároveň. I zde může fúzování více obrazů významně pomoci. Postupuje se stejnou metodou hledání minima vhodné funkce jako při odstraňování rozmazání, ale v „účelové funkci“ se zvětší váha členů vyjadřujících požadavek na hladkost výsledného obrazu. Tím dojde ke kýženému efektu potlačení obou degradací zároveň.

Zvýšení prostorového rozlišení

Zvýšení prostorového rozlišení snímku je velmi žádoucí zejména při rozpoznávání relativně malých objektů (tváře, poznávací značky aut apod.) v případech, kdy snímky byly pořízeny kamerami s malou rozlišovací schopností. Do této kategorie patří webové kamery, kamery v mobilních telefonech, většina bezpečnostních kamer na křižovatkách, v obchodních centrech, na letištích atd. Metoda fúzování více snímků zde opět nabízí nečekané možnosti. Týmu ÚTIA se podařilo vyvinout originální metodu, která zvyšuje rozlišení již ve fázi odstranění degradací, tedy zároveň s vícekanálovou dekonvolucí. Výsledné snímky nejen mají kompenzované degradace, ale jejich rozlišovací schopnost převyšuje technické parametry použité kamery. Úroveň rozeznatelných detailů odpovídá kameře s dvojnásobným nebo i větším rozlišením (obr. 3).

Další směry ve výzkumu fúze obrazů

Vše, co bylo dosud vyvinuto a v tomto článku zmíněno, funguje spolehlivě pro snímky scén, které jsou statické nebo se pohybují jako celek a které nemají výrazný třírozměrný charakter. Tímto omezením současných metod jsou dány další směry výzkumu. Velkou výzvou je modifikovat nynější metody tak, aby byly použitelné pro zpracování videozáznamů. K tomu je třeba nejprve detekovat pohybující se objekty, scénu segmentovat podle pohybu a každý pohybující se objekt zpracovávat zvlášť.

Velmi atraktivní směr představuje i tzv. multimodální fúze, tedy fúze snímků z výrazně různých zdrojů (pořízených různými typy senzorů). Tak bude možné „inteligentně“ kombinovat např. snímky v infračerveném a viditelném spektru nebo v medicíně data z magnetické rezonance a pozitronové emisní tomografie. Zde nejde o zvyšování rozlišení, ale o to, rozpoznat a použít z každého snímku to důležité.

Jan Flusser, ÚTIA AV ČR

Obr. 1. Registrace obrazů je prvním krokem k úspěšné fúzi; vstupní snímky jsou nahoře, dole je výsledek registrace; v oblasti překryvu může být následně provedena vlastní fúze obrazů
Obr. 2. Fúze obrazů metodou slepé dekonvoluce; vstupní snímky (nahoře a uprostřed) jsou zřetelně rozmazané chvěním fotoaparátu (fotografováno z ruky s dlouhou expozicí), výstupní snímek (dole) je výrazně ostřejší
Obr. 3. Zvýšení prostorového rozlišení snímku; nahoře je jeden z osmi vstupních nekvalitních snímků, dole výsledný snímek s dvojnásobným rozlišením, potlačeným rozmazáním a redukovaným šumem

Příspěvek lze ve formátu PDF stáhnout zde