Sign Voice / Vision Deck

Hogyan ugrunk át egy lehetetlennek tűnő technikai kihívást?

Nem egyetlen “nagy varázslatot” építünk. Egy tanítható, mérhető, moduláris rendszert rakunk össze, amely lépésről lépésre javul: kamera → kéz/arc/test landmarkok → mozdulatminták → tanuló adatbázis → felismerés → visszajelzés.

Moduláris rendszer Kameraalapú felismerés Tanuló adatpipeline Gyors MVP validáció

Core idea

A rendszer nem “tudja” a jelnyelvet — megtanulja felismerni a mintákat.

Az első cél nem tökéletes fordító. Az első cél egy bizonyítható felismerési mag: néhány mozdulat/kifejezés stabil kamerás detektálása.

Input Detection Training Recognition Output

A valódi kihívás

Nem appot építünk először. Bizonyítékot építünk.

A Sign Voice technikailag nehéz, mert a jelnyelv nem csak kézmozgás: testtartás, arc, sebesség, irány, kontextus és személyenkénti eltérés is számít. Ezért a rendszerünket nem monolitként, hanem kísérletezhető modulokként tervezzük. Fejlesztői oldalról a fő kérdés: hogyan bontjuk le a problémát olyan pipeline-ra, ahol minden lépés külön mérhető, debugolható és később cserélhető.

🖐️

Mozgás + forma + idő

Nem statikus képet kell felismerni, hanem időben változó mozdulatmintákat.

🧬

Kevés jó adat

A modell annyira lesz okos, amennyire okosan tanítjuk.

🎯

Fókuszált validáció

Először 3–5 jel stabil felismerése, utána bővítés.

Tervezési stratégia

A megoldás: kis, tesztelhető egységek egymásra építve.

Így csökkentjük a kockázatot: minden modul külön ellenőrizhető, cserélhető és fejleszthető. Ha valami nem működik, nem az egész rendszert dobjuk ki — csak azt a réteget javítjuk. A fejlesztési elv: typed input/output contract minden modul között, reprodukálható sample-ek, és olyan debug UI, ahol látjuk, hogy a hiba a kameránál, a landmark extractionnél, az adatminőségnél vagy a recognition logikánál keletkezik.

Core strategy

A lényeg: tanítható, bővíthető, visszacsatolásból javuló rendszer

Nem hardcode-olt “ha ezt látod, ezt írd ki” logikát akarunk építeni. A cél egy olyan moduláris tanuló rendszer, ahol minden új, jó minőségű minta növeli a felismerés alapját, a hibák mérhetők, a recognition motor pedig később lecserélhető fejlettebb modellre.

1. RögzítKamera vagy importált minta alapján mozgásadat keletkezik.

2. StrukturálLandmarkokból validált, címkézett training sample lesz.

3. FelismerA motor összeveti az élő inputot a tanított mintákkal.

4. JavulÚj minták, hibajelzések és threshold tuning alapján finomodik.

Kamera input

MediaStream, frame capture, FPS kontroll, fallback állapotok.

Landmarkok

Hand / face / pose koordináták, confidence és sequence smoothing.

Tanító adatok

Schema, import validation, quality gate, duplicate handling.

Felismerés

Feature vectors, temporal matching, confidence score, thresholdok.

Visszacsatolás

Pontosság, hibák, újratanítás, finomítás.

Moduláris rendszer

Úgy építjük, mint egy cserélhető AI-gépet.

A moduláris felépítés miatt párhuzamosan lehet dolgozni: az egyik csapat a kamera/landmark rétegen, a másik az adattisztításon, a harmadik a felismerési logikán. Később bármelyik réteg fejlettebbre cserélhető. A kulcs nem az, hogy elsőre tökéletes modellt építsünk, hanem hogy olyan tanulási infrastruktúrát hozzunk létre, amelyben a rendszer minden validált mintával és minden tesztkörrel okosabban hangolható.

01 / Capture Module

Kamera, engedélyek, videóstream, frame capture.

02 / Landmark Module

Hand / face / pose pontok és mozgásgörbék.

03 / Training Data Module

Import, validáció, quality score, duplicate strategy — ez a rendszer tanulási alapja.

04 / Recognition Module

Pattern matching, confidence score, prediction — később cserélhető ML motorra.

05 / UX Feedback Module

Felhasználói output, debug nézet, confidence állapotok és hibákból tanuló feedback loop.

Rendszerarchitektúra

Három szint: élmény, intelligencia, adat.

A csapat számára így lesz átlátható: mit lát a felhasználó, hol történik a felismerés, és hol épül a tanuló adatvagyon. A rendszer értéke hosszú távon nem csak a felismerő algoritmusban van, hanem abban, hogy a training adatok, a minőségi kapuk és a visszacsatolási logika együtt egy fejleszthető tanuló rendszert alkotnak.

Frontend / UX

Felhasználói réteg

Kamera indítása

Gyakorló / teszt mód

Visszajelzés és confidence

Admin / contributor panel

Recognition Core

Felismerési réteg

Landmark feldolgozás

Feature extraction

Pattern matching / ML modell

Prediction + scoring

Data Layer

Tanuló adatbázis

Sample JSON import

Batch management

Duplicate handling

Quality metrics

Technikai mélyítés

Fejlesztői nézőpontból ez egy real-time recognition pipeline.

A rendszer lényege, hogy a kamera nyers videójából ne közvetlenül próbáljunk “jelentést” kitalálni, hanem köztes, validálható reprezentációkat hozzunk létre. Így minden réteghez lehet tesztet, debug nézetet és acceptance criteriát rendelni.

Data contract

Training sample alap séma

Minden rögzített minta strukturált objektumként kerül a rendszerbe, nem “random blobként”. Ez az alapja a batch importnak, validációnak és későbbi modelltréningnek.

{
  id: string,
  label: "hello" | "thanks" | "yes" | ...,
  sourceType: "camera" | "import" | "test",
  frames: LandmarkFrame[],
  frameCount: number,
  durationMs: number,
  qualityScore: 0-100,
  metadata: { device, fps, contributor, createdAt }
}

Feature layer

Nyers landmarkból tanulható feature

A koordinátákat normalizálni kell, hogy a kamera távolsága, kézméret, képernyőméret és user pozíció ne borítsa meg a felismerést.

Relative coordinates: csuklóhoz / vállhoz / arcponthoz viszonyítás
Temporal window: mozdulat kezdete, csúcsa, vége
Velocity + direction: irány és sebesség változása
Missing landmarks: confidence alapján kezelve, nem crash-selve

Recognition

POC felismerő motor

Az első motor célja nem a végleges AI, hanem a működési bizonyíték. Olyan felismerő API kell, ami később belül cserélhető.

recognize(inputSequence) → {
  predictedLabel: string | null,
  confidence: number,
  matchedSamples: string[],
  debug: { windowStart, windowEnd, failedRules }
}

Quality gate

Adatminőség mint elsőrangú feature

Ha az adatpipeline nincs rendben, a recognition oldalon csak tüneteket javítunk. Ezért az import és training panel nem admin extra, hanem core rendszerkomponens.

Minimum frame count / duration
Landmark coverage százalék
Duplicate strategy: skip / replace / keep both
Invalid sample report, hogy a contributor javítani tudja

3–5elsőként validálandó jel / kifejezés

≥70%kezdeti cél confidence kontrollált környezetben

0ismeretlen blob az importált training adatban

1cserélhető recognition interface minden motorhoz

Roadmap

Nem mindent egyszerre. Bizonyítás → stabilizálás → skálázás.

A cél, hogy gyorsan eljussunk egy olyan tesztelhető verzióig, amely kamerával felismer néhány előre betanított mozdulatot/kifejezést. Ez lesz a technológiai proof-of-concept. Fejlesztői acceptance criteria: stabil kameraengedély-kezelés, látható landmark debug overlay, reprodukálható sample import, confidence score, és egy minimal test harness, amivel ugyanazokat a mintákat újra le lehet futtatni regresszióteszthez.

POC felismerés

3–5 egyszerű jel stabil felismerése kamerából, debug nézettel, confidence értékkel és fejlesztői loggal: melyik feature alapján döntött a rendszer.

Dataset bővítés

Több ember, több kameraállás, több fényviszony, tisztább import, minőségmérés, batch review és invalid sample visszajelzés.

Recognition motor finomítás

Szabályalapú / similarity alapú logika stabilizálása, threshold tuning, false positive tesztek, majd ML irány előkészítése, ha az adatminőség elég jó.

Használható MVP

Egyszerű tanuló / gyakorló felület, ahol a rendszer visszajelez és fokozatosan bővíthető.

Mit kérünk a csapattól?

Segítsetek a rendszert validálhatóvá, taníthatóvá és skálázhatóvá tenni.

Most nem “kész terméket” keresünk, hanem technikai együttgondolkodást: hogyan építsünk egy olyan alapot, ami pár jel felismerésével bizonyít, majd biztonságosan bővíthető.

Build

MVP technikai mag

Mi a leggyorsabb út 3–5 jel kamerás felismeréséig úgy, hogy közben a pipeline később ne legyen kuka?

Risk

Legnagyobb kockázat

Hol bukhat el a pontosság: adat, kamera, landmark extraction, temporal segmentation, thresholding vagy recognition logika?

Learn

Adatstratégia

Hogyan gyűjtsünk elég jó mintát úgy, hogy ne építsünk rossz adatvagyont?

Scale

Bővíthetőség

Hogyan maradjon cserélhető minden fő modul, ha később ML-re váltunk?

Köszönet

Köszönjük, hogy végigolvastad.

Ezt a rendszertervet Víg Réka állította össze. Ez egyelőre csak egy felmerült lehetőség — egy projekt, amin nagyon szívesen dolgoznék együtt veletek.

Ha érdekel a közös munka, dobj egy emailt: hello@rekavig.com

Millió köszönet, hogy végigolvastátok — szuper napokat! 🎈

— Víg Réka