KI hilft Haushaltsrobotern, die Planungszeit zu halbieren
HeimHeim > Nachricht > KI hilft Haushaltsrobotern, die Planungszeit zu halbieren

KI hilft Haushaltsrobotern, die Planungszeit zu halbieren

Jul 21, 2023

Vorheriges Bild Nächstes Bild

Ihr brandneuer Haushaltsroboter wird zu Ihnen nach Hause geliefert und Sie bitten ihn, Ihnen eine Tasse Kaffee zu kochen. Obwohl es einige grundlegende Fähigkeiten aus früheren Übungen in simulierten Küchen kennt, gibt es viel zu viele Aktionen, die es möglicherweise ausführen könnte – den Wasserhahn aufdrehen, die Toilettenspülung spülen, den Mehlbehälter leeren und so weiter. Aber es gibt eine kleine Anzahl von Aktionen, die möglicherweise nützlich sein könnten. Wie soll der Roboter herausfinden, welche Schritte in einer neuen Situation sinnvoll sind?

Es könnte PIGINet nutzen, ein neues System, das darauf abzielt, die Problemlösungsfähigkeiten von Haushaltsrobotern effizient zu verbessern. Forscher des Computer Science and Artificial Intelligence Laboratory (CSAIL) des MIT nutzen maschinelles Lernen, um den typischen iterativen Prozess der Aufgabenplanung zu reduzieren, bei dem alle möglichen Aktionen berücksichtigt werden. PIGINet eliminiert Aufgabenpläne, die die Anforderungen an die Kollisionsfreiheit nicht erfüllen können, und reduziert die Planungszeit um 50–80 Prozent, wenn nur 300–500 Probleme trainiert werden.

Typischerweise probieren Roboter verschiedene Aufgabenpläne aus und verfeinern ihre Bewegungen iterativ, bis sie eine praktikable Lösung finden. Dies kann ineffizient und zeitaufwändig sein, insbesondere wenn bewegliche und gelenkige Hindernisse vorhanden sind. Vielleicht möchten Sie zum Beispiel nach dem Kochen alle Soßen in den Schrank stellen. Dieses Problem kann zwei bis acht Schritte erfordern, je nachdem, wie die Welt in diesem Moment aussieht. Muss der Roboter mehrere Schranktüren öffnen oder gibt es Hindernisse im Schrank, die verschoben werden müssen, um Platz zu schaffen? Sie möchten nicht, dass Ihr Roboter nervig langsam ist – und es wird noch schlimmer, wenn er beim Nachdenken das Abendessen verbrennt.

Unter Haushaltsrobotern versteht man in der Regel, dass sie bei der Ausführung von Aufgaben vordefinierten Rezepten folgen, was nicht immer für vielfältige oder sich verändernde Umgebungen geeignet ist. Wie vermeidet PIGINet diese vordefinierten Regeln? PIGINet ist ein neuronales Netzwerk, das „Pläne, Bilder, Ziele und Ausgangsdaten“ aufnimmt und dann die Wahrscheinlichkeit vorhersagt, dass ein Aufgabenplan verfeinert werden kann, um realisierbare Bewegungspläne zu finden. Vereinfacht ausgedrückt verwendet es einen Transformator-Encoder, ein vielseitiges und hochmodernes Modell, das für die Verarbeitung von Datensequenzen entwickelt wurde. Die Eingabesequenz besteht in diesem Fall aus Informationen darüber, welchen Aufgabenplan es in Betracht zieht, Bildern der Umgebung und symbolischen Kodierungen des Ausgangszustands und des gewünschten Ziels. Der Encoder kombiniert die Aufgabenpläne, Bilder und Texte, um eine Vorhersage hinsichtlich der Durchführbarkeit des ausgewählten Aufgabenplans zu erstellen.

Um Dinge in der Küche aufzubewahren, erstellte das Team Hunderte von simulierten Umgebungen, jede mit unterschiedlichem Layout und spezifischen Aufgaben, die es erfordern, Gegenstände zwischen Arbeitsflächen, Kühlschränken, Schränken, Spülbecken und Kochtöpfen neu anzuordnen. Durch die Messung der zur Problemlösung benötigten Zeit verglichen sie PIGINet mit früheren Ansätzen. Ein korrekter Aufgabenplan könnte Folgendes umfassen: Öffnen der linken Kühlschranktür, Abnehmen eines Topfdeckels, Bewegen des Kohls vom Topf in den Kühlschrank, Bewegen einer Kartoffel in den Kühlschrank, Aufheben der Flasche aus der Spüle, Stellen der Flasche in die Spüle, Aufheben der … Tomate oder die Tomate platzieren. PIGINet reduzierte die Planungszeit deutlich um 80 Prozent in einfacheren Szenarien und um 20–50 Prozent in komplexeren Szenarien mit längeren Plansequenzen und weniger Trainingsdaten.

„Systeme wie PIGINet, die die Leistungsfähigkeit datengesteuerter Methoden nutzen, um bekannte Fälle effizient zu bearbeiten, aber dennoch auf „First-Principles“-Planungsmethoden zurückgreifen können, um lernbasierte Vorschläge zu überprüfen und neuartige Probleme zu lösen, bieten das Beste aus beidem „Welten und bietet zuverlässige und effiziente Allzwecklösungen für eine Vielzahl von Problemen“, sagt MIT-Professor und CSAIL-Hauptforscher Leslie Pack Kaelbling. Die Verwendung multimodaler Einbettungen in der Eingabesequenz durch PIGINet ermöglichte eine bessere Darstellung und ein besseres Verständnis komplexer geometrischer Beziehungen. Die Verwendung von Bilddaten half dem Modell, räumliche Anordnungen und Objektkonfigurationen zu erfassen, ohne die 3D-Netze des Objekts zu kennen, um eine präzise Kollisionsprüfung durchzuführen, was eine schnelle Entscheidungsfindung in verschiedenen Umgebungen ermöglichte.

Eine der größten Herausforderungen bei der Entwicklung von PIGINet war der Mangel an guten Trainingsdaten, da alle realisierbaren und unrealisierbaren Pläne von herkömmlichen Planern erstellt werden müssen, was in erster Linie langsam ist. Durch den Einsatz vorab trainierter Vision-Sprachmodelle und Datenerweiterungstricks konnte das Team diese Herausforderung jedoch bewältigen und eine beeindruckende Planzeitverkürzung nicht nur bei Problemen mit sichtbaren Objekten, sondern auch bei der Zero-Shot-Generalisierung auf bisher ungesehene Objekte vorweisen.

„Da jedes Zuhause anders ist, sollten Roboter anpassungsfähige Problemlöser und nicht nur Rezeptfolger sein. Unsere Kernidee besteht darin, einen Allzweck-Aufgabenplaner die Erstellung von Aufgabenplänen für Kandidaten zu ermöglichen und ein Deep-Learning-Modell zu verwenden, um die vielversprechenden Aufgaben auszuwählen. Das Ergebnis ist ein effizienterer, anpassungsfähigerer und praktischerer Haushaltsroboter, der selbst in komplexen und dynamischen Umgebungen flink navigieren kann. Darüber hinaus sind die praktischen Anwendungen von PIGINet nicht auf Haushalte beschränkt“, sagt Zhutian Yang, MIT CSAIL-Doktorand und Hauptautor der Arbeit. „Unser zukünftiges Ziel besteht darin, PIGINet weiter zu verfeinern, um alternative Aufgabenpläne nach der Identifizierung undurchführbarer Aktionen vorzuschlagen, was die Erstellung realisierbarer Aufgabenpläne weiter beschleunigen wird, ohne dass große Datensätze für die Schulung eines Allzweckplaners von Grund auf erforderlich sind.“ Wir glauben, dass dies die Art und Weise revolutionieren könnte, wie Roboter während der Entwicklung trainiert und dann in jedem Zuhause eingesetzt werden.“

„Dieses Papier befasst sich mit der grundlegenden Herausforderung bei der Implementierung eines Allzweckroboters: Wie kann man aus früheren Erfahrungen lernen, um den Entscheidungsprozess in unstrukturierten Umgebungen mit einer großen Anzahl an gelenkigen und beweglichen Hindernissen zu beschleunigen“, sagt Beomjoon Kim PhD '20 , Assistenzprofessor an der Graduate School of AI am Korea Advanced Institute of Science and Technology (KAIST). „Der größte Engpass bei solchen Problemen besteht darin, einen Aufgabenplan auf hoher Ebene so zu bestimmen, dass es einen Bewegungsplan auf niedriger Ebene gibt, der den Plan auf hoher Ebene umsetzt. Normalerweise muss man zwischen Bewegungs- und Aufgabenplanung hin- und herpendeln, was zu erheblicher Rechenineffizienz führt. Zhutians Arbeit geht dieses Problem an, indem er Lernen nutzt, um undurchführbare Aufgabenpläne zu eliminieren, und ist ein Schritt in eine vielversprechende Richtung.“

Yang verfasste das Papier zusammen mit dem NVIDIA-Forscher Caelan Garrett SB '15, MEng '15, PhD '21; Die Professoren der MIT-Abteilung für Elektrotechnik und Informatik und CSAIL-Mitglieder Tomás Lozano-Pérez und Leslie Kaelbling; und Senior Director of Robotics Research bei NVIDIA und Professor Dieter Fox von der University of Washington. Das Team wurde von AI Singapore und Zuschüssen von der National Science Foundation, dem Air Force Office of Scientific Research und dem Army Research Office unterstützt. Dieses Projekt wurde teilweise durchgeführt, während Yang ein Praktikant bei NVIDIA Research war. Ihre Forschung wird im Juli auf der Konferenz Robotics: Science and Systems vorgestellt.

Vorheriger Artikel Nächster Artikel