Hogyan ugrunk át egy lehetetlennek tűnő technikai kihívást?
Nem egyetlen “nagy varázslatot” építünk. Egy tanítható, mérhető, moduláris rendszert rakunk össze, amely lépésről lépésre javul: kamera → kéz/arc/test landmarkok → mozdulatminták → tanuló adatbázis → felismerés → visszajelzés.
A rendszer nem “tudja” a jelnyelvet — megtanulja felismerni a mintákat.
Az első cél nem tökéletes fordító. Az első cél egy bizonyítható felismerési mag: néhány mozdulat/kifejezés stabil kamerás detektálása.
Nem appot építünk először. Bizonyítékot építünk.
A Sign Voice technikailag nehéz, mert a jelnyelv nem csak kézmozgás: testtartás, arc, sebesség, irány, kontextus és személyenkénti eltérés is számít. Ezért a rendszerünket nem monolitként, hanem kísérletezhető modulokként tervezzük. Fejlesztői oldalról a fő kérdés: hogyan bontjuk le a problémát olyan pipeline-ra, ahol minden lépés külön mérhető, debugolható és később cserélhető.
Mozgás + forma + idő
Nem statikus képet kell felismerni, hanem időben változó mozdulatmintákat.
Kevés jó adat
A modell annyira lesz okos, amennyire okosan tanítjuk.
Fókuszált validáció
Először 3–5 jel stabil felismerése, utána bővítés.
A megoldás: kis, tesztelhető egységek egymásra építve.
Így csökkentjük a kockázatot: minden modul külön ellenőrizhető, cserélhető és fejleszthető. Ha valami nem működik, nem az egész rendszert dobjuk ki — csak azt a réteget javítjuk. A fejlesztési elv: typed input/output contract minden modul között, reprodukálható sample-ek, és olyan debug UI, ahol látjuk, hogy a hiba a kameránál, a landmark extractionnél, az adatminőségnél vagy a recognition logikánál keletkezik.
A lényeg: tanítható, bővíthető, visszacsatolásból javuló rendszer
Nem hardcode-olt “ha ezt látod, ezt írd ki” logikát akarunk építeni. A cél egy olyan moduláris tanuló rendszer, ahol minden új, jó minőségű minta növeli a felismerés alapját, a hibák mérhetők, a recognition motor pedig később lecserélhető fejlettebb modellre.
Kamera input
MediaStream, frame capture, FPS kontroll, fallback állapotok.
Landmarkok
Hand / face / pose koordináták, confidence és sequence smoothing.
Tanító adatok
Schema, import validation, quality gate, duplicate handling.
Felismerés
Feature vectors, temporal matching, confidence score, thresholdok.
Visszacsatolás
Pontosság, hibák, újratanítás, finomítás.
Úgy építjük, mint egy cserélhető AI-gépet.
A moduláris felépítés miatt párhuzamosan lehet dolgozni: az egyik csapat a kamera/landmark rétegen, a másik az adattisztításon, a harmadik a felismerési logikán. Később bármelyik réteg fejlettebbre cserélhető. A kulcs nem az, hogy elsőre tökéletes modellt építsünk, hanem hogy olyan tanulási infrastruktúrát hozzunk létre, amelyben a rendszer minden validált mintával és minden tesztkörrel okosabban hangolható.
01 / Capture Module
Kamera, engedélyek, videóstream, frame capture.
02 / Landmark Module
Hand / face / pose pontok és mozgásgörbék.
03 / Training Data Module
Import, validáció, quality score, duplicate strategy — ez a rendszer tanulási alapja.
04 / Recognition Module
Pattern matching, confidence score, prediction — később cserélhető ML motorra.
05 / UX Feedback Module
Felhasználói output, debug nézet, confidence állapotok és hibákból tanuló feedback loop.
Három szint: élmény, intelligencia, adat.
A csapat számára így lesz átlátható: mit lát a felhasználó, hol történik a felismerés, és hol épül a tanuló adatvagyon. A rendszer értéke hosszú távon nem csak a felismerő algoritmusban van, hanem abban, hogy a training adatok, a minőségi kapuk és a visszacsatolási logika együtt egy fejleszthető tanuló rendszert alkotnak.
Felhasználói réteg
Felismerési réteg
Tanuló adatbázis
Fejlesztői nézőpontból ez egy real-time recognition pipeline.
A rendszer lényege, hogy a kamera nyers videójából ne közvetlenül próbáljunk “jelentést” kitalálni, hanem köztes, validálható reprezentációkat hozzunk létre. Így minden réteghez lehet tesztet, debug nézetet és acceptance criteriát rendelni.
Training sample alap séma
Minden rögzített minta strukturált objektumként kerül a rendszerbe, nem “random blobként”. Ez az alapja a batch importnak, validációnak és későbbi modelltréningnek.
Nyers landmarkból tanulható feature
A koordinátákat normalizálni kell, hogy a kamera távolsága, kézméret, képernyőméret és user pozíció ne borítsa meg a felismerést.
- Relative coordinates: csuklóhoz / vállhoz / arcponthoz viszonyítás
- Temporal window: mozdulat kezdete, csúcsa, vége
- Velocity + direction: irány és sebesség változása
- Missing landmarks: confidence alapján kezelve, nem crash-selve
POC felismerő motor
Az első motor célja nem a végleges AI, hanem a működési bizonyíték. Olyan felismerő API kell, ami később belül cserélhető.
Adatminőség mint elsőrangú feature
Ha az adatpipeline nincs rendben, a recognition oldalon csak tüneteket javítunk. Ezért az import és training panel nem admin extra, hanem core rendszerkomponens.
- Minimum frame count / duration
- Landmark coverage százalék
- Duplicate strategy: skip / replace / keep both
- Invalid sample report, hogy a contributor javítani tudja
Nem mindent egyszerre. Bizonyítás → stabilizálás → skálázás.
A cél, hogy gyorsan eljussunk egy olyan tesztelhető verzióig, amely kamerával felismer néhány előre betanított mozdulatot/kifejezést. Ez lesz a technológiai proof-of-concept. Fejlesztői acceptance criteria: stabil kameraengedély-kezelés, látható landmark debug overlay, reprodukálható sample import, confidence score, és egy minimal test harness, amivel ugyanazokat a mintákat újra le lehet futtatni regresszióteszthez.
POC felismerés
3–5 egyszerű jel stabil felismerése kamerából, debug nézettel, confidence értékkel és fejlesztői loggal: melyik feature alapján döntött a rendszer.
Dataset bővítés
Több ember, több kameraállás, több fényviszony, tisztább import, minőségmérés, batch review és invalid sample visszajelzés.
Recognition motor finomítás
Szabályalapú / similarity alapú logika stabilizálása, threshold tuning, false positive tesztek, majd ML irány előkészítése, ha az adatminőség elég jó.
Használható MVP
Egyszerű tanuló / gyakorló felület, ahol a rendszer visszajelez és fokozatosan bővíthető.
Segítsetek a rendszert validálhatóvá, taníthatóvá és skálázhatóvá tenni.
Most nem “kész terméket” keresünk, hanem technikai együttgondolkodást: hogyan építsünk egy olyan alapot, ami pár jel felismerésével bizonyít, majd biztonságosan bővíthető.
MVP technikai mag
Mi a leggyorsabb út 3–5 jel kamerás felismeréséig úgy, hogy közben a pipeline később ne legyen kuka?
Legnagyobb kockázat
Hol bukhat el a pontosság: adat, kamera, landmark extraction, temporal segmentation, thresholding vagy recognition logika?
Adatstratégia
Hogyan gyűjtsünk elég jó mintát úgy, hogy ne építsünk rossz adatvagyont?
Bővíthetőség
Hogyan maradjon cserélhető minden fő modul, ha később ML-re váltunk?
Köszönjük, hogy végigolvastad.
Ezt a rendszertervet Víg Réka állította össze. Ez egyelőre csak egy felmerült lehetőség — egy projekt, amin nagyon szívesen dolgoznék együtt veletek.
Millió köszönet, hogy végigolvastátok — szuper napokat! 🎈