Wenn Roboter sehen lernen

Kinderleicht und doch unglaublich schwer: Bildverarbeitungssysteme geben Maschinen die Fähigkeit zu sehen. Doch um Dinge zu identifizieren und zu verstehen, braucht es mehr.

Der Roboter fährt über die Kiste mit bunten Bauklötzen in verschiedenen Formen, greift zielstrebig nach einem gelben Dreieck und legt es neben der Kiste ab. Ein Ablauf, der für den Menschen denkbar einfach ist, Roboter-Programmierer aber bereits seit den 1980er-Jahren vor große Herausforderungen stellt.

Denn der sogenannte Griff in die Kiste (im englischen Bin Picking) zählt zu den schwierigsten Aufgabenstellungen in der Robotik. Dabei bereitet nicht etwa das Greifen und Ablegen Probleme. Die Schwierigkeit liegt in der Erkennung der unsortierten Objekte. Denn dem Roboter fehlt eine der wichtigste menschlichen Fähigkeiten: das Sehen.

Sehen ohne Augen?

»Wahrnehmen (über das Sinnesorgan Auge)«: So definiert das deutsche Universalwörterbuch Duden den Begriff Sehen. Wie soll aber nun eine Maschine, der dieses Sinnesorgan fehlt, diese Fähigkeit einsetzen? Die Lösung liegt in Bildverarbeitungssystemen. Bildverarbeitung funktioniert ganz ähnlich wie das menschliche Sehen: Sowohl Mensch als auch Maschine sehen eigentlich nicht das Objekt selbst, sondern die Reflexionen des Lichts, die vom Objekt zurückgeworfen werden.

Beim Menschen sorgen Iris, Pupille und Netzhaut dafür, dass das Licht gebündelt, scharfgestellt und in Farben abgebildet wird. Im Anschluss werden die Informationen an das Gehirn weitergegeben. Bei der Maschine übernehmen diese Schritte Kameras, Blenden, Kabel und Recheneinheiten.

Die Wahrnehmung macht den Unterschied

»Trotz vieler Ähnlichkeiten zwischen dem menschlichen und dem technischen Sehen gibt es große Unterschiede zwischen den beiden Welten«, erklärt Anne Wendel, Referentin in der Fachabteilung Industrielle Bildverarbeitung beim VDMA Fachverband Robotik + Automation.

»Der größte besteht im Verstehen und Interpretieren von Bilddaten. Der Mensch lernt im Laufe seines Lebens die Bedeutung von Objekten und Situationen, die er täglich über die Augen wahrnimmt, und filtert sie größtenteils intuitiv. Im Gegensatz dazu identifiziert ein Bilderverarbeitungssystem Objekte nur dann korrekt, wenn sie vorher programmiert oder antrainiert wurden.« Äpfel und Birnen kann schon das kleinkindliche Gehirn so schnell voneinander unterscheiden wie Hund und Katze. Ein technisches System stellt das vor eine schwierige Aufgabe.

Deep Learning hilft beim Erkennen

Für die korrekte Identifizierung von Objekten existieren Software-Algorithmen für unterschiedlichste Aufgaben. Um diese korrekt zu programmieren, müssen Entwickler von Bildverarbeitungssystemen bereits vorab wissen, was das System später leisten muss, um es entsprechend auslegen zu können.

»Deep Learning, der Einsatz künstlicher neuronaler Netze, ermöglicht die Klassifizierung von Bildern mit besseren Raten als bisherige Methoden und kann hier unterstützen«, weiß Wendel. Insbesondere bei Standardanwendungen könne man gute Ergebnisse erzielen. Allerdings ist eine große Menge Bildmaterial nötig, normalerweise viel mehr, als der Produktionsprozess hergibt, besonders von defekten Teilen.

Aus Informationen Handlungen ableiten

Die Verbindung von Bildverarbeitung mit Robotik geht laut KUKA Vision-Experte Sirko Prüfer noch einen Schritt weiter: »Wir beziehen den Roboter aktiv in den sogenannten Perception-Action-Loop ein. Für uns reicht es nicht aus, die gewonnenen Informationen aus dem Bild aufzunehmen. Wir machen uns Gedanken, welche Handlung sich aus den Informationen für den Roboter ableitet.«

Vision-Systeme z.B. von Roboception eröffnen neue Möglichkeiten in der Robotik

In Kombination mit Mobilität können sich so neue Anwendungsfelder ergeben: von der roboterbasierten Ernte hochempfindlicher Gemüse- und Obstsorten bis hin zu Applikationen im Pflegebereich, die eine umfassende Erkennung eines Raumes erfordern.

Ein weiteres großes Zukunftsfeld ist das Thema »Embedded Vision«, die direkte Einbettung von Bildverarbeitung in Endgeräten. Beispiele dafür sind Assistenzsysteme in Autos und autonomes Fahren, das ohne integrierte Vision-Systeme unmöglich ist.

Embedded Vision dringt in Anwendungsfelder vor, die bislang weder durch Smart Cameras noch durch PC-basierte Systeme erschlossen werden konnten. Die Wertschöpfung verschiebt sich weiter von Hardware zur Software.

Eine Frage des Datenschutzes

Ob Griff in die Kiste, automatisierte Ernte oder der Einsatz von Embedded Vision, alle Anwendungen erfordern für die Bildverarbeitung ein hohes Maß an Rechenkapazität. Edge- und Cloudcomputing-Konzepte werden dabei künftig eine tragende Rolle spielen.

Gleichzeitig stellt sich die Frage nach Datenschutz und -sicherheit, bei der Bildverarbeitungs-Expertin Wendel Herausforderungen sieht: »Wie in vielen anderen Bereichen in der Produktion gibt es eine grundlegende Frage: Wem gehört das Netzwerk, wem die Daten, wem die verdichtete Wiedergabe der Daten?«

Eine Klärung gibt es bislang nicht. Die Herausforderungen zeigen, wie überlegen das menschliche Sehen und Urteilsvermögen dem technischen noch immer ist. Und auch wenn es immer bessere Lösungen für den Griff in die Kiste gibt: Das menschliche Auge lässt sich nicht ersetzen.

 

 

Schreibe einen Kommentar