
Gemini Robotics: KI trifft auf die reale Welt
Mit den auf Gemini 2.0 basierenden KI-Modellen Gemini Robotics und Gemini Robotics-ER will Google DeepMind die Robotik vorantreiben: Das Basismodell meistert physische Aufgaben, während ER komplexe Probleme in dynamischen Umgebungen löst.
Google DeepMind möchte Roboter erschaffen, die eigenständig handeln und denken. Auf dem Weg dorthin hat das Unternehmen nun einen neuen Meilenstein in der Verbindung von Künstlicher Intelligenz (KI) und Robotik vorgestellt: die auf Gemini 2.0 basierenden Modelle Gemini Robotics und Gemini Robotics-ER (Embodied Reasoning). Beide Modelle zielen darauf ab, KI-Systeme nicht nur in der digitalen, sondern auch in der physischen Welt handlungsfähig zu machen.
Während sich Gemini Robotics auf die Grundlagen physischer Interaktion konzentriert, ergänzt Gemini Robotics-ER diese Fähigkeiten um logisches Schlussfolgern für komplexe Problemstellungen. Der Fokus liegt dabei auf der Entwicklung von Robotern, die Aufgaben in dynamischen Umgebungen eigenständig bewältigen können – von der Lagerlogistik bis hin zu alltäglichen Hilfestellungen.
Drei Kerninnovationen treiben die Entwicklung voran
Die Fortschritte von Gemini Robotics basieren auf drei technologischen Säulen:
1. Universalität
Die Fähigkeit, KI-Modelle universell auf verschiedene Roboter und Aufgaben anzuwenden – ohne massgeschneiderte Anpassungen. Beispielsweise kann dieselbe KI sowohl einen Roboterarm in der Fertigung steuern als auch einen mobilen Roboter in der Logistik. Die KI kann auch mit Situationen umgehen, die im Training nie behandelt wurden, und diese meistern.
2. Interaktivität
Gemini Robotics ist wie Gemini 2.0 intuitiv und interaktiv. Die KI versteht unterschiedliche Sprachen sowie Alltagssprache und kann auf komplexe Anweisungen reagieren. Da sie dabei die Umgebung kontinuierlich überwacht, erkennt sie Veränderungen und kann dynamisch darauf reagieren.
3. Geschicklichkeit
Das System hilft beim präzisen physischen Manipulieren von Objekten in 3D-Räumen. Es kann zerbrechliche Gegenstände greifen, Papier falten oder Boxen ohne vorherige Programmierung stapeln.
Erweiterte Fähigkeiten durch «Embodied Reasoning»
Gemini Robotics-ER baut auf den drei Grundlagen auf und integriert die Fähigkeit zum besseren logischen Schlussfolgern in Echtzeit. Dadurch soll insbesondere das räumliche Denken verbessert werden. Das Modell soll Roboter befähigen, komplexe Probleme in unvorhersehbaren Umgebungen zu lösen – etwa indem es Handlungsketten plant, Prioritäten setzt oder Ursache-Wirkungs-Zusammenhänge erkennt. Durch räumlichen Denkens in Kombination der Programmierfähigkeit können Roboter dank Gemini auch komplett neue Fähigkeiten erlernen – quasi intuitives Handeln an den Tag legen.

Quelle: Google DeepMind
Sollte eine Problemlösung nicht selbst gefunden werden, kann das Modell auch einer menschlichen Demonstration folgen, um kontextbezogen zu lernen.
Langfristig sollen die neuen KI-Modelle in Industrie, Katastrophenhilfe und als Alltagsassistenz eingesetzt werden. Gemini Robotics soll repetitive physische Aufgaben automatisieren, während Gemini Robotics-ER als Problemlöser in unvorhersehbaren Kontexten agiert.
5 Personen gefällt dieser Artikel


Der tägliche Kuss der Muse lässt meine Kreativität spriessen. Werde ich mal nicht geküsst, so versuche ich mich mittels Träumen neu zu inspirieren. Denn wer träumt, verschläft nie sein Leben.