Daten sind das Herzstück jeder KI-Anwendung. Doch oft mangelt es an qualitativ hochwertigen und repräsentativen Daten, um Modelle effektiv zu trainieren. Insbesondere in der Automobilbranche, wo Daten oft schwer zugänglich und begrenzt sind, stoßen Forscher auf Probleme. Um diese Hürden zu überwinden, greifen die Wissenschaftler des Deutschen Forschungszentrums für Künstliche Intelligenz (DFKI) auf synthetische Daten zurück – künstlich erzeugte Datensätze, die realen Daten in nichts nachstehen sollen. In diesem Beitrag erfahren Sie mehr über die Bedeutung synthetischer Daten und wie wir sie im Projekt einsetzen.
Für das Training einer Künstlichen Intelligenz sind Daten essentiell. Am Projekt Autowerkstatt 4.0 teilnehmende Werkstätten haben in den letzten Wochen erste Daten gesammelt, die etwa Aufschluss über das Verhalten der Lambdasonde während verschiedener Betriebszustände liefern. Solch reale Datensätze sind entscheidend, um KI-Modelle zu entwickeln und zu trainieren, die Werkstätten künftig bei der Fehlerdiagnose unterstützen können. So könnten Werkstättenbetreiber mithilfe KI-gestützter Werkzeuge schneller und effizienter arbeiten und komplexe Fehlerfälle identifizieren, die sonst schwer zu erkennen wären. Anstatt nur auf die eigene jahrelange Erfahrung vertrauen zu müssen, könnten sie zusätzlich auf KI-gestützte Analysewerkzeuge setzen.
Herausforderungen bei der Datenerhebung
Eine KI kann jedoch nur dann gewünschte Ergebnisse liefern, wenn eine gewisse Menge an validen Trainingsdaten vorliegt. Je komplexer die Aufgabe, desto mehr qualitativ hochwertige Daten benötigt eine KI. Oft decken reale Daten diesen Bedarf nicht ab, so auch im AW-4.0-Projekt. „Die realen Datensätze, mit denen wir bisher gearbeitet haben, waren zu klein und nicht ausreichend repräsentativ, um alle relevanten Fälle abzudecken”, sagt Tim Bohne, Researcher beim Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI). „Die aufgezeichneten Sensordaten haben zum Beispiel oft nur reguläre Betriebszustände umfasst. Es gab wenige Samples, die Fehler oder Anomalien darstellen.”
Für Werkstätten ist es jedoch herausfordernd, mehr Daten über alle Fälle zu sammeln. Sie müssten etwa Daten von zahlreichen Fahrzeugen unter verschiedensten Bedingungen erheben. Das ist mit hohen Kosten verbunden, zum Beispiel, wenn Experten gefragt sind, die die Daten erfassen und analysieren. Nicht alle Werkstätten können auf das nötige Budget und die Expertise zurückgreifen.
Zudem nimmt es viel Zeit in Anspruch, die Daten zu sammeln, vor allem, wenn es sich um seltene Ereignisse oder Anomalien handelt. Zeit, die Werkstätten im geschäftigen Alltag schlicht nicht haben. Hinzu kommt, dass reale Daten oft unvollständig oder verrauscht sind. Diese Störungen können die Qualität der Daten beeinträchtigen und machen eine aufwendige Nachbearbeitung erforderlich. Außerdem sind viele dieser Daten aus Datenschutzgründen nicht frei zugänglich, was die Erhebung zusätzlich erschwert. Vor allem im Automobilsektor sind Daten oftmals streng geheim. All diese Faktoren führen dazu, dass reale Daten häufig nicht ausreichen, um KI-Modelle effektiv zu trainieren.
Synthetische Daten als Lösung
Damit das AW-4.0-Projekt fortschreiten kann, benötigt das Team Daten über alle möglichen Fahrzeugszenarien, die sich in der Realität aber nur schwer abbilden lassen. Mit realen Daten kommt das Team hier nicht weiter. Um diese Probleme zu überwinden, setzen die Forscher verstärkt auf synthetische Daten. Diese werden mittels computergestützter Verfahren künstlich erzeugt und sind in ihrer Struktur und ihren Eigenschaften realen Daten nachempfunden. Messungen in der Werkstatt müssen dafür nicht durchgeführt werden.
Die Forscher können solche Daten in beliebiger Menge und Variation generieren. Das DFKI erstellt die synthetischen Datensätze unter anderem mittels Data Augmentation. Hierbei kombinieren die Forscher reale Datensignale und modifizieren sie, um neue Signale zu erzeugen. Bohne erklärt: „Wir nutzen zum Beispiel das sogenannte Pattern Mixing, mit dem wir neue Daten erzeugen, die statistisch den realen Messsignalen aus den Werkstätten ähneln. Damit erweitern wir die Trainingsdatensätze und können die Modellgenauigkeit und Generalisierungsfähigkeit verbessern.”
Vorteile von synthetischen Daten
Der Einsatz solch künstlicher Daten ist längst kein Neuland mehr. Unternehmen und Forschungseinrichtungen erkennen zunehmend die Vorteile dieser Methode, insbesondere in Situationen, in denen reale Daten schwer zu beschaffen sind oder bei der die Wahrung der Privatsphäre eine zentrale Rolle spielt. Immer mehr Unternehmen setzen daher auf immer mehr synthetische Daten. Eine Studie des Marktforschers Gartner prognostiziert für dieses Jahr (2024), dass etwa 60 Prozent der für KI-Trainings genutzten Daten synthetisch sein werden. Zum Vergleich: Im Jahr 2021 waren nur ein Prozent aller Trainingsdaten synthetisch.
Der Einsatz künstlicher Daten wächst also rasant. Dies wundert nicht, denn künstliche Daten haben eine Menge Vorteile im Vergleich zu realen Daten. Sie sind kostengünstiger und es können schneller größere Datenmengen für das KI-Training bereitgestellt werden. Zudem können Forscher Variationen und neue Szenarien einführen, mit denen Modelle lernen, auf unterschiedliche Situationen zu reagieren. Nicht zuletzt weisen synthetische Daten keinen direkten Bezug zu realen Personen oder besonderen Fällen auf und bieten somit eine sichere Alternative für datenschutzsensible Bereiche.
Vor allem in Projekten wie Autowerkstatt 4.0 werden künstliche Daten immer relevanter. In einer Branche, in der es oft schwierig ist, ausreichend Daten zu sammeln, bietet die Generierung synthetischer Daten eine gute Lösung. AW 4.0 zeigt, wie auch kleine Unternehmen synthetische Daten nutzen können, um komplexe Probleme zu lösen, neue Möglichkeiten in der KI-Entwicklung zu erschließen und wettbewerbsfähig zu bleiben.
Tim Bohne vom DFKI ist überzeugt: „Synthetische Daten werden eine Schlüsselrolle in der Zukunft der KI spielen, indem sie es ermöglichen, leistungsfähigere, vielseitigere und letztlich auch sicherere KI-Systeme zu entwickeln. Ein wichtiger Punkt dabei ist, dass wir synthetische Daten nie als Testdaten verwenden, sondern lediglich zur Ergänzung der Trainings- und Validierungsdaten. Während des Trainingsprozesses lernen die Modelle aus den synthetischen Daten, aber die abschließende Evaluation ihrer Leistung erfolgt ausschließlich anhand realer, ungesehener Daten.”