Künstliche Intelligenz |
Datenerfassung zum Training von KI |
Künstliche Intelligenz |

Bedarf
In einem Umsetzungsprojekt des Kompetenzzentrums ergab sich bei einem Onlinehänder der Anwendungsfall, von Kunden eingeschickte Produktfotos dem eigenen Sortiment per KI zuzuordnen. In dieser Story wollen wir Ihnen die Möglichkeit geben, den Prozess der Lösungsfindung zu begleiten.
Das Training von KI Anwendungen erfordert im Allgemeinen eine große Datenbasis mit einer möglichst breiten Diversifikation aller denkbaren Variablen. Die genaue Menge hängt von der gewünschten Performance der KI und der Komplexität des zu lernenden Zusammenhangs ab. Für das gesamte Sortiment des Händlers ausreichend Trainingsbilder zu erzeugen, stellt einen enormen Aufwand dar. Dieses Problem tritt in vielen Anwendungsfällen von KI auf.
Bilderkennung , convolutional neural network , künstliche Intelligenz , Leistung bringen! , Maschinelles Lernen
Automatische Datenerfassung zum Training von KI-Anwendungen
Um Ersatzteile anzufragen, schicken Kunden oft Bilder von defekten Bauteilen. Die Zuordnung zum Sortiment erfolgt durch das Erfahrungswissen der Mitarbeiter. Eine KI soll hier entlasten und Bilddaten automatisch erfassen.

Lösungsansätze
Ziel des Projektes ist es, den manuellen Aufwand zur Trainingsdatengeneration zu vermindern. Dazu stehen zwei Ansätze zur Verfügung: zum einen die Reduktion der benötigten Ausgangsdaten über Data Augmentation. Dies bedeutet, die virtuelle Vergrößerung eines Datenbestandes durch eine nachträgliche Modifikation von aufgenommenen Bildern. Dazu können diverse Möglichkeiten der Bildbearbeitung genutzt werden – Verschiebung, Rotation, Spiegelung, Veränderung von Helligkeit und Belichtung oder Ersetzen des Hintergrundes.
Zum anderen besteht die Möglichkeit, den Aufnahmeprozess selbst und die Datenablage zu automatisieren. So entstehen weniger manuelle Fehler und der Bedarf an Personal sinkt.

Anforderungen
Folgende zusätzliche Anforderungen ergeben sich für das Projekt:

Prozessablauf
Hardware-Lösungen
Um die aufgenommenen Anforderungen zu erfüllen und eine größtmögliche Flexibilität gegenüber neuen oder anderen Produkten zu gewährleisten, gab es verschiedene Konzepte der Automatisierung. Durch die Möglichkeit der maximalen Flexibilität in der Kamerapositionierung fiel die Entscheidung auf den Einsatz eines Low Cost Roboters.
Als Kamera wurde aus Budgetgründen eine Webcam ausgewählt, um die Trainingsbilder möglichst ähnlich den späteren Kundenaufnahmen zu machen. In späteren Ausbaustufen wäre auch der Einsatz einer Industriekamera oder Spiegelreflexkamera mit externem Trigger und wechselbaren Objektiven denkbar.
UI / Software Design
Zur Gewährleistung einer einfachen Bedienung erhielt das Nutzerinterface einen großen und zentralen Aufnahmebutton. So ist die am häufigsten genutzte Funktion in einem Ein-Klick-Workflow erreichbar. Der Prototyp wird über einen Touchscreen bedient. Damit ist eine simple und intuitive Interaktion möglich. Über eine Wischbewegung erreichbare Menüs lassen den Nutzer auf der einen Seite die Aufnahmeparameter und Robotersteuerung konfigurieren, auf der anderen Seite werden Parameter für Ausgabeoptionen und Weiterverarbeitung verändert. Für erhöhte Portabilität und einfachere Einrichtung wurde ein USB Speichermedium anstelle eines Netzwerk- oder Cloudspeichers bevorzugt. Softwareintern wurde die Roboterbahnsteuerung gekapselt. So ist gewährleistet, dass sich im Nachgang jeder beliebige Roboter, der durch externe globale Koordinaten steuerbar ist, mit geringem Aufwand anbinden lässt.

Ergebnisbilder
Um die Anzahl der Ergebnisbilder zu vervielfachen, werden verschiedene Transformationen angewendet. Neben der hier dargestellten Ersetzung des Hintergrundes können die Objekte von Interesse auch gedreht, gestaucht oder gespiegelt werden. So lassen sich aus einem einzelnen tatsächlich aufgenommenen Bild etwa 15.360 Trainingsbilder errechnen.
Beispielrechnung
- Ausgangsbild: 1
- Drehnung in 45° Schritten: x8
- Verschiebung an 4 zufällige Positionen: x6
- Spiegelung horrizontal und vertikal: x4
- Helligkeit in 4 Stufen verändern: x4
- Sättigung in 2 Stufen verändern: x2
- Hintergrund ersetzen: x10
ergibt 15.360 Trainingsbilder.
Eine typische Aufnahme des Prototypen dauert etwa 2 Minuten und enthält 36 Bilder. Somit können pro Minute mehr als eine Viertelmillion Trainingsbilder erzeugt werden.
Fertigstellung des Prototyps
Der Prototyp wird durch einen Einplatinencomputer (Raspberry Pi 4) als günstiges und leistungsfähiges „Gehirn“ komplettiert. Nach zahlreichen Funktionstests im Kompetenzzentrum erfolgte ein finaler Test vor Ort bei Nico Fahrzeugteile. Während der Aufnahmen zeigten sich noch einige Verbesserungspotentiale. So konnten die größten Ersatzteile im Bestand wegen noch nicht ausreichend großem Aufnahmeraum nicht komplett erfasst werden. Zusätzlich zeigte sich, dass transparente Artikel nur äußerst schwierig automatisch freigestellt werden können. Im Userinterface gab es den Bedarf nach einem „Aufnahme wiederholen“ Button.
Mit diesem Feedback erfolgte eine weitere Überarbeitung des Demonstrators vor der finalen Übergabe und dem Beginn der produktiven Nutzung.
Wir unterstützen Sie bei der Digitalisierung
Schreiben Sie uns: projekte@betrieb-machen.de
Mittelstand-Digital ist ein Förderschwerpunkt des Bundesministeriums für Wirtschaft und Energie (BMWi) Weitere Informationen unter www.mittelstand-digital.de |