2024.03.19. 06:00
Megmutatjuk, miért élünk sorsfordító időket az ember-robot történelemben
Akadnak pillanatok a technikatörténetben is, mikor dobpergésnek kellene felhangoznia.
Forrás: Figure AI
Minap valami egészen új, történetformáló esemény történt, ami megelőlegezheti a következő éveket, egyesek szerint évtizedeket.
Évek óta zajlik a fejlett humanoid robotok fejlesztése. Működik a Boston Dynamics atlétikai képességű Atlas robotja, a kissé roggyant mozgású Tesla, lehet csevegni a rejtélyes Sophiával és Amecával. Most pedig itt van Figure 01-es robot, amelyik kifinomult mozgásokra és beszédre egyaránt képes: tanul, értelmez és társalog.
A humanoidot az a Figure AI hozta össze, melynek fejlesztéseit Jeff Bezos, az OpenAI (a ChatGPT megalkotója) és az Nvidia finanszírozza. Olyan robot, amely bármelyik sci-fiben otthonosan nézne ki – csak immáron nem trükkfelvétel, hanem maga a valóság.
Március 9-én a Figure AI startup robotikai cég közzétette az alább látható rövid videót a Figure 01 robotjáról. A humanoid új Visual Language Model (VLM) modellt futtat, ami teljesen új minőségre emelte versenytársai közül. Megközelíti a Csillagok háborúja C-3PO-jának képességeit.
Lássuk, mi történt! A videóban Figure 01 egy asztal mögött áll, amin tányér, alma, csésze, edénytároló látható. Egy ember áll a robot elé, és megkérdezi tőle: „Figure 01, mit látsz most?”
Figure 01 kissé szokatlan, de emberi hangon válaszol. Nincsenek arcvonásai, csak animált fény mozog a homlokán, szinkronban a hangjával.
Megválaszolja, mi van az asztalon és megemlíti a pultra támaszkodó férfit is.
(Magyarul: feldolgozza, hogy mit lát, érti a beszédet és korrekt válaszokat ad élő szóban.)
Ekkor megkérdezik tőle: „Kaphatok valamit enni?”
A 01-es válasza „persze”, majd ügyes mozdulattal felemeli az almát, és átadja.
A férfi kiönt némi papírhulladékot az asztalra egy szemetesből és közben felteszi a kérdést: „Meg tudná magyarázni, miért tette azt, amit az imént tett, s közben visszarakja a szemetet?”
A robot rendet csinál és ezalatt válaszol is: „Szóval, neked adtam az almát, mert ez az egyetlen ehető tárgy, ami az asztalon elérhető”. Azután kérésre a tálcára pakol. Látszólag teljesen hétköznapi események zajlanak.
Mi történt?
A Figure AI vállalat közleményében kifejtette, hogy a Figure 01 speech-to-speech, azaz beszédről-beszédre gondolkodásra képes az OpenAI multimodális modellje, a VLM segítségével. Ez a hétköznapi fogalmazásban azt jelenti, hogy míg az eddigi ChatGPT-k írásbeli kérdésekre (promptokra) tudtak csak válaszolni, a Figure 01 megérti-feldolgozza a látványt, a beszédet és fizikai cselekvéssel, valamint értelmes beszéddel képes reagálni.
A gyártó ezt „tanult alacsony szintű bimanuális manipulációnak” nevezi. A rendszer a képeket pixelszintig(!) feldolgozza neurális hálózatával. „Ezek a hálózatok 10 Hz-en veszik fel a képeket, és 200 Hz-en 24-DOF műveleteket (csuklópózokat és ujjízületi szögeket) generálnak” – írja a Figure AI közleménye.
Azt állítják, hogy a videóban látható összes mozzanat a rendszer öntanulásán alapul, nincs semmilyen trükk, távműködtetés, senki sem bábozott titokban a színfalak mögött.
Ha ez mind igaz, akkor hűha.
Digitália
- Miért kerül annyira kevés pénzbe Indiának a Hold és a Mars elérése?
- Sikeres a tinédzserkorban elvégzett testsúlycsökkentő műtét
- Talán egy polc mélyén nálunk is rejtőzik egy több százezret érő régi játékkonzol?
- Magyarul is beszélő, valódi robotkutyával találkozhatunk az ingyenes hazai eseményen
- Az otthoni rehabilitációt segíti a mesterséges intelligenciával működő hazai fejlesztés