Dialektikus analiticizmus a video-biztonságtechnikában II.

Felhasználói fiók Hírlevél feliratkozás

Dialektikus analiticizmus a video-biztonságtechnikában II.

Biztonságtechnika
/
2021-07-05

A kép-/videotartalom-elemzésről dióhéjban.

Nem kizárt, hogy egyetlen, ma még nem ismert, innováció robbantja az MI „bombát”, de valószínűbb, hogy a K+F-ben érintett vállalkozások és egyéb szervezetek által előállított produktumok összeadódó kapacitása hozza el azt a kritikus pontot, melyet követően az MI technológia terjedése (kvázi) megállíthatatlan lesz.”

Valószínűleg ez a korral jár, de aki hozzám hasonlatosan átélte a CCTV technológiák robbanásszerű fejlődését a ’90-es évek közepétől, végétől, az már kellő óvatossággal közelíti bizonyos marketing töltelékszavakkal (okos/intelligens stb.) kifejezésekhez.

Ellentmondásos kompromisszumok
Korunkban az MI / gépitanulás vették át a fent vázol, korábban agyoncsépelt jelzők helyét. Amikor egy analitikai megoldással szeretnénk hatékonyabbá tenni egy CCTV rendszer működését, mindig tartsuk szem előtt, hogy minden „intelligens” megoldás csak és annyira intelligens, mint annak fejlesztője és felhasználója. Bármely esetben, amikor egy analitikai megoldás „felhajtása” a feladatunk, mindig vegyük figyelembe, hogy milyen erőforrások állnak rendelkezésünkre. Értem ez alatt úgy az anyagiakat (a szó jelentésspektrumának teljességére kiterjedően), mint a humánt, továbbá a legfontosabbat: a rendelkezésre álló időt. Talán ez utóbbi a legfontosabb a szofisztikáltabb MI alapú megoldások rendszerbe állítása során – idő kell ahhoz, hogy az adott „intelligenciát” megtanítsuk arra, mit is várunk el tőle.
Az anyagiak jelentőségét nem lehet eléggé hangsúlyozni. Az MI-támogatott megoldások hardverigényét – jelenleg még – nem lehet kellően túlbecsülni.

Így lát a T-800 (is)
Vélhetően ő (T-800) is lát, de a számítógépek mindenképpen, így egy jelentős hátránnyal indulnak – nem a nagy egészet látják, hanem részletek sokaságát. Biztosan nem árulok el titkot, de a számítógépek pixeleket „látnak” melyekből a megfelelő algoritmusok megadott mintákat (szem, orr, száj, jármű, ember stb.) igyekeznek „felfedezni”. Az általuk alkalmazott módszer elmondva egyszerűnek tűnhet: szürkeárnyalatos képek segítségével igyekeznek éleket, ez által formavonalakat felismerni. Amennyiben két pixel között jelentős árnyalatkülönbség van, az jó eséllyel jelezheti valaminek az élét. Apropó, miért szürkeárnyalatos képekkel dolgoznak ilyen esetben? Mert kisebb fájlméretűek, mint színes megfelelőik, de a pixelfelbontás értéke azokéval – kisebb fájlméret = alacsonyabb számításerőforrásigény.

„Kezdetben vala” a mozgásérzékelés… ez esetben szimplán a pixelváltozásokra reagált az analitikát végző eszköz. Valójában az egyszerűbb technológiai hátterű analitikák (ott hagyott/eltűnt objektum, vonalátlépés stb.) mind az egykori mozgásérzékelők továbbfejlesztett utódai.
Később jött annak lehetősége, hogy az felhasználó megadja, mekkora mértékű legyen a pixelváltozás mértéke (és/vagy időtartama) ami alatt nem riaszt a rendszer.
Napjaink egyik legelterjedtebb analitikai eljárása a fenti technológia és az alap szintű gépi tanulás (egy adott, „felokosított” algoritmus) ötvözete.
A fejlettebb rendszerek pedig már gépi (tanító adatkészlettel „előtanított”, az alap algoritmust módosítani képes technológián alapuló) mélytanulást alkalmaznak.

Valójában az izgalmas rész a gépi tanulással indul. Részben azért, mert hatékonysága jelentősen magasabb lehet, mint a korábbi generációs megoldásoké; részben pedig azért, mert erőforrásigénye relatíve alacsony, így akár végponti eszközökben (leginkább kamerák), valamint középkategóriás NVR-ekben (akár DVR-ekben) is remekül alkalmazható. Ami a pontosságát illeti, amint az szerepelt, elődeinél jelentősen hatékonyabb lehet, de összevetve a (gépi) mélytanulással, észlelhetők a hiányosságai. Például, ha a vizsgált objektum jelentősebb eltérésekkel rendelkezik a tanítókészlethez viszonyítva, a gépi tanuláson alapuló algoritmusok hatékonysága erősen csökkenhet.
Bár nem a bölcsek köve, de többek között az előbb említett problémák feloldása érdekében, egyre nagyobb szeletet hasítanak ki maguknak az ún. (gépi) mélytanuláson alapuló megoldások. Míg egy „szimpla” arcalapú azonosítás esetében nem kell mélytanuló algoritmus, az a nem szokványos viselkedést folytató objektumok azonosításánál jelentősen jobb hatásfokkal működnek, mint gépi tanulás alapú „testvéreik”. A technológia mélységeit most nem boncolgatva, a mélytanulás több (minimum 3) elemzőrétegen futtatja át a vizsgált objektum egyes részeit annak érdekében, hogy a kimeneti rétegen „megállapítsa”, valójában mit is látunk.

A mélytanuló megoldások esetében a „szűrési szabályokat” a „gép” határozza meg, az emberi beavatkozás kimerül az ún. idegi háló (a „szűrő rétegek”) mélységének meghatározásában. Tévedések elkerülése végett, itt sem szükségszerűen a több a jobb – azaz, a szűrőrétegek száma nem szükségszerűen áll egyenes arányosságban az adott mélytanuló algoritmus képességeivel. Nem mellesleg, a szűrőrétegek számának növelése egyenesen arányos a számítási erőforrásigény növekedésével. Ebből kifolyólag, csak igen kevés gyártó integrál (ma még) mélytanuló algoritmussal felvértezett funkciókat végponti készülékekbe (pl. kamerák) – de azért akad rá példa.

Bár az mélytanuló algoritmusok képesek a valósidejű tanulásra, az esetek túlnyomó részében az analitikai megoldás gyártója felügyeli és folytatja le a tanítási folyamatot, melyet verziófrissítések keretében oszt meg az élő rendszerek felhasználóival. A tanulási folyamat igen magas, elemszámú, de diverzifikált mintázattal rendelkező (lásd etnikai és nemi kihívások stb.), tűhegypontossággal (felhasználási forgatókönyvekhez igazítva, célirányosan) címkézett tanítókészleteteket igényelnek, melyek már önmagában olyan költségtényezőt jelentenek, melyek a technológiát (még) csak egy szűkebb réteg számára teszik „vonzóvá”. Emellett, a mélytanuló algoritmusok (jelenlegi) hátrányai között érdemes megemlíteni a magas hardver és szoftver költségeket.

Néhány apróság
Érdemes figyelembe venni, hogy még a leghatékonyabb elemző megoldások is (különösen azok) statisztikai valószínűségekkel dolgoznak – azaz: „találgatnak”. Minél hatékonyabb egy algoritmus és minél profibb tanítókészlettel végezték a „kiképzését” a „találgatás” annál közelebb fog esni a „rögvalósághoz”. Azonban, ma még, a rögvalóság megállapítása az ember feladata; aki azért szintén tévedhet és (horribile dictu) elfogult is lehet.

Ha matematikailag szeretnénk megfogni egy MI alapú analitikai megoldás hatékonyságát (értelmezni a hír/marketing anyagokban szereplő adatokat), azt (leegyszerűsítve a kérdést) az alábbi képlet segítségével tehetjük meg:
Hatékonyság = (összes azonosítás – téves azonosítások száma) / összes azonosítás

Ez önmagában nem elégséges, mivel a rendszer céljától függően nem mindegy, hogy a fals pozitív, vagy a fals negatív azonosítás milyen mértékben fogadható el. Nem mindegy, hogy egy „vidámparki arcalapú, vendégek azonosítását végző beléptető rendszer” enged be 5 illetéktelent, vagy a Paksi Atomerőműbe jut be 5 illetéktelen. Az USA-ban hasonlóan kiemelt fontosságú kérdés a fegyverek detektálásának pontossága. Egy iskolai (stb.) fegyverdetektáló rendszer esetében a 99%-os hatékonyság nem elégséges, hiszen egyetlen fegyver bejutása is több tucat ártatlan áldozattal járhat. Ebből fakadóan, ilyen forgatókönyvek mellett jobban elfogadható egy 90%-os fals pozitív (azaz fegyver birtoklását 10%-ban tévesen jelző) hatékonyság, mint a 98%-os fals negatív – mely az esetek 2%-ában nem jelzi ki a fegyverek jelenlétét). Azaz, a fejlesztők/gyártók által megadott hatékonysági adatokat mindig kritikusan, az adott projekt biztonsági forgatókönyvét figyelembe véve kezeljük!

Szerző: O.V.SZ.