Aktuální vydání

celé číslo

03

2023

Automatizace strojírenské výroby

HMI a operátorské panely

celé číslo

Systémy odolné proti poruchám v prostředí průmyslové automatizace

číslo 12/2006

Systémy odolné proti poruchám v prostředí průmyslové automatizace

Úspěšné výrobní podniky často spoléhají na modely řízení vyžadující informace v reálném čase. To velmi podstatně zvyšuje požadavek na nepřetržitou dostupnost informačních systémů. Komplexnost a vzájemná provázanost takových systémů jim přitom dávají znak kritických zdrojů společnosti. V tomto prostředí ovšem může mít jejich i poměrně krátký výpadek fatální následky s dopadem na činnost celé firmy.

Dostupnost aplikací a dat

Závislost na informačních systémech je vnímána jako negativní faktor, a do jisté míry tomu tak skutečně je. Použití informačních systémů je přitom běžné ve všech oblastech průmyslu. Dostupnost patří mezi klíčová hlediska zcela jistě ve farmacii, energetice, teplárenství, chemii a petrochemii, ale také např. při výrobě polovodičových součástek či v automobilovém průmyslu. Stěží lze dnes ve výrobním podniku nalézt někoho, kdo nespoléhá na informace z informačních systémů. Informace potřebují manažeři, provozní inženýři, technologové a operátoři výroby, informační systémy jsou využívány při kontrole a řízení jakosti. Těmto pracovníkům poskytují podklady pro rozhodování např.:

  • elektronické záznamy o šaržích (EBR – Electronic Batch Record),
  • systémy pro operativní řízení a sběr dat (SCADA – Supervisory Control And Data Acquisition),
  • systémy MES (Manufacturing Execution Systems),
  • systémy řízení dodavatelských řetězců (SCM/SCE – Supply Chain Management and Supply Chain Execution),
  • systémy integrace aplikací v podniku (EAI – Enterprise Application Integration),
  • systémy pro elektronickou výměnu dat (EDI – Electronic Data Interchange),
  • systémy správy skladů a skladových zásob (WMS – Warehouse and Inventory Management),
  • systémy ERP (Enterprise Resource Planning),
  • systémy pro správu dat a dokumentace o výrobku během jeho životního cyklu (PLM – Product Lifecycle Management),
  • systémy pro správu výrobních prostředků (AMS – Asset Management Systems).

Podívejme se, jak je klasifikována dostupnost aplikací a jaké jsou technické možnosti jejího zajištění.

Pominou-li se plánované odstávky systému, které jsou nutné např. z důvodu údržby či instalace „opravných balíčků“ aplikací a operačních systémů, nejčastějšími příčinami zastavení či omezení provozu jsou:

Podíl těchto faktorů na potenciálním i reálném výpadku systémů se v jednotlivých odborných studiích často liší. Skutečností však zůstává, že odstávky z těchto příčin jsou neočekávané a neplánované, a právě schopnost efektivní prevence a reakce na vznikající problém je klíčem k co nejlepší dostupnosti aplikací.

Tab. 1. Dostupnost aplikací

Dostupnost

Odpovídající výpadek

99 %

3,6 dne za rok

99,9 %

8,76 hodiny za rok

99,99 %

52 minut za rok

99,999 %

5 minut za rok

99,999 9 %

30 sekund za rok

99,999 99 %

3 sekundy za rok

Dostupnost je obvykle vyjadřována počtem devítek, odpovídajícím počtu minut nebo hodin, který statisticky vyjadřuje celkovou roční délku všech výpadků konkrétního systému (tab. 1). Větší počet devítek za desetinnou čárkou znamená lepší dostupnost, většinou závislou na technickém konceptu použitého řešení.

Velmi vysoká dostupnost na úrovni šesti a sedmi devítek přitom většinou bývá vykoupena velmi vysokou cenou řešení. V běžných podmínkách obvykle bývá používáno řešení na úrovni pěti devítek, přičemž takovéto systémy jsou označovány jako systémy odolné proti poruchám (fault-tolerant).

Systémy odolné proti poruchám

Systémy fault-tolerant obsahují záložní komponenty, které pracují on-line a synchronně s primárním systémem. Poskytují tak možnost okamžité a transparentní náhrady v případě selhání některé z primárních komponent. V podstatě to znamená, že náhradní díly jsou již součástí systému. Redundance komponent rozhodně není postačujícím aspektem vysoké dostupnosti. Musí být implementována logika zapojení redundantních komponent tak, aby i přes případné selhání některé z nich nebyl přerušen běh kritické aplikace a nebyly ohroženy zdroje systému.

Obr. 1.

Obr. 1. Stratus ftServer 5700

Koncepce různých řešení systémů fault-tolerant se více nebo méně liší1). Všechny však zahrnují některé typické prvky, většinou realizované již na úrovni hardwaru. Systém fault-tolerant je schopen detekovat vzniklou či právě vznikající chybu a správně na ni reagovat. Implementovaná diagnostika pomáhá určit příčinu selhání a také konkrétní subsystém nebo komponentu, kde se chyba vyskytla. Včasné odstínění chyby zaručuje, že nebudou ovlivněny ostatní subsystémy a komponenty. Maskování vzniklých chyb zajišťuje, že chyby neproniknou dále a aplikace pracuje pouze se správnými daty. Při kompenzaci selhalé komponenty jsou určovány a zapojovány komponenty zajišťující její náhradu. Jednou z nejdůležitějších funkcí je možnost včasné opravy komponenty po selhání, a to dříve, než její výpadek stihne ohrozit ostatní zdroje a celkovou dostupnost systému. Do doby, než je zcela sjednána náprava a odstraněna příčina selhání, může totiž systém obsahující vadnou komponentu, nebo dokonce subsystém běžet v režimu, kdy je plně funkční, ale již není odolný proti dalším u selhání. V takových případech záleží na násobnosti redundance systému, která může být i více než dvojnásobná.

Obr. 2.

Obr. 2. Výměna CPU za provozu

Všechny uvedené procesy běží na pozadí systému se žádnou nebo jen minimální režií ovlivňující výkon systému a aplikace ani uživatel si nejsou žádné redundance komponent ani těchto procesů vědomi. Výjimkou je hlášení vzniklé chyby správci systému nebo operátorovi tak, aby mohla být co nejdříve sjednána náprava.

Redundantní servery Stratus

Typickým zástupcem systémů fault-tolerant je např. redundantní server Stratus® ftServer® (obr. 1). Tento server je od základu navržen v souladu s požadavky na velkou dostupnost tak, aby byl minimalizován počet neplánovaných i plánovaných odstávek systému. Podle požadavku na dostupnost jsou jeho komponenty buď zdvojeny, nebo ztrojeny. Při výpadku primární komponenty či dílčího celku serveru nedochází k přerušení běhu aplikace ani ke ztrátě transakcí a výměna vadných komponent je možná za plného provozu serveru (obr. 2). Dvojitá či trojitá redundance hardwaru je u tohoto systému doplněna softwarovými opatřeními různých úrovní a povahy, podporujícími zvýšení dostupnosti, a dále službami odpovídajícími povaze kritických aplikací. Služby mimo jiné zahrnují stabilní připojení k celosvětové servisní síti Stratus, což umožňuje nepřetržité monitorování a zachycení vzniklých, nebo dokonce teprve vznikajících problémů a okamžité sjednání nápravy.

Často diskutovanou otázkou v případě serverů fault-tolerant je jejich kompatibilita. Takové servery jsou totiž vždy do jisté míry proprietární, protože obsahují speciální prvky zajišťující právě velkou odolnost proti výpadkům. V tomto smyslu může zmíněný server jít příkladem ostatním producentům obdobných systémů, protože v něm jsou využívány zcela standardní jedno- nebo vícejádrové procesory Xeon společnosti Intel, kterým odpovídají paměti, chipsety, disky a rovněž vstupní a výstupní periferie. Stratus ftServer je certifikován pro provoz operačních systémů Microsoft Windows Server a Red Hat Enterprise Linux a lze na něj bez jakýchkoliv úprav či speciálních aplikačních rozhraní instalovat běžné aplikace. Z hlediska přizpůsobování aplikací pro vysokou dostupnost je zde významný ještě další prvek. Servery Stratus se ve vztahu k operačnímu systému a aplikacím chovají jako jeden běžný server, nejsou zapotřebí žádné úpravy, konfigurace a testování aplikací, jako tomu je např. u clusterů. Právě složitější vývoj aplikací, konfigurace a nutnost testování clusterů totiž paradoxně mohou vnášet vyšší riziko výpadku v důsledku větší složitosti správy serveru a zvýšených požadavků na znalosti administrátora. Z licenčního hlediska se navíc významně uspoří finanční prostředky, protože nejsou vyžadovány licence ve verzi pro cluster.

Tab. 2. Redundantní servery – výhody a nevýhody

Redundantní servery

Výhody

Nevýhody

  • při výpadku jakékoliv komponenty nedojde k žádnému omezení provozu,
  • nedojde ani ke ztrátě právě probíhající transakce,
  • proti výpadku jsou zabezpečeny servery i sdílený diskový prostor,
  • server se z hlediska správy jeví jako standardní, není třeba psát failover skripty, není nutné specializované školení administrátorů,
  • softwarová licence pro aplikaci se pořizuje jen na jeden server, nejsou třeba licence ve verzi cluster.
  • jsou nutné vysoké počáteční investice do specializovaného hardwaru,
  • pro zabezpečení umístěním záložního serveru do jiné lokality je nutné použít další server.

Dobře navržený hardware není jediným faktorem ovlivňujícím celkovou stabilitu a dostupnost klíčových procesů výrobní firmy. Servery fault-tolerant většinou nejsou, a to zejména v průmyslové automatizaci, používány izolovaně od svého okolí. Zde k vysoké dostupnosti může přispívat třeba robustnost návrhu a realizace síťové infrastruktury. Například komunikační protokoly TCP/IP umožňují poměrně spolehlivou komunikaci i v prostředí částečně narušených či přetížených sítí. Tyto protokoly obsahují metody, jak zajistit přenos dat zapouzdřených v paketech, které mohou být k příjemci doručeny opakovaně, popř. v jiném pořadí, než byly odeslány. Také v tomto případě se tedy, stejně jako u systémů fault-tolerant, předem počítá s případnými selháními. Nutnost opakovaného odeslání paketu s daty se sice může projevit na rychlosti doručení těchto dat, nicméně spolehlivost doručení je vysoká. V prostředí průmyslové automatizace je na komunikační prvky a jejich dostupnost kladen velmi velký důraz, proto je celá architektura řešení většinou navržena tak, aby existovala zastupitelnost klíčových článků komunikace. Informatici v tomto smyslu zavádějí pojem SPOF (Single Point Of Failure, „slabé místo„). SPOF je prvek limitující celkovou dostupnost systému. Jestliže např. zcela vypadnou síťové cesty nebo dodávka energie, pozbývá sebelepší server fault-tolerant své funkce a stává se nedostupným.

Způsob implementace a návrh komplexního řešení jsou vždy připravovány a realizovány s dodavatelem řešení z oblasti průmyslové automatizace. Servery Stratus jsou podporovány světovými špičkami v oboru průmyslové automatizace (Siemens, Honeywell, Iconics, ABB, Invensys či Emerson) a velmi dobře doplňují jejich oborová řešení. Přínosy, jichž je dosahováno díky implementaci serverů Stratus, jsou např.:

  • zajištění dostupnosti a integrity dat,
  • zvýšení spolehlivost a zlepšení komunikace se zákazníky a dodavateli,
  • jednoduché uvedení do provozu a správa zajišťující nízké provozní i celkové náklady na vlastnictví,
  • podpora integrovaných procesů a řízení v reálném čase.

V případě maximálních požadavků na dostupnost mohou být na klíčové servery aplikovány standardní nástroje obnovy po havárii (disaster recovery). Míru dostupnosti dále zvyšuje umístění jednotlivých serverů v několika různých lokalitách.

Ing. Roman Haluzík,
Storyflex a. s.


1) Pozn. red.: Nejčastěji se používají zde popisované redundantní servery, dále tzv. clustery, zahrnující dva nebo více serverů a sdílené diskové pole, nebo replikační software.