Neues vom DFKI: Das Demonstratorsystem und die Rolle synthetischer Daten in der Fahrzeugdiagnose

Im Rahmen des Projekts „Autowerkstatt 4.0” arbeitet das Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI) an innovativen KI-Lösungen zur Verbesserung der Fahrzeugdiagnose. Im Interview berichtet DFKI-Researcher Tim Bohne über die Neuentwicklung eines Demonstratorsystems, den Umgang mit kleinen Datenmengen und die Relevanz synthetischer Daten.

Autowerkstatt 4.0: Herr Bohne, Sie arbeiten als Researcher beim DFKI, Forschungspartner des AW 4.0-Projektes. Können Sie uns den aktuellen Stand des Forschungsprojekts beim DFKI erläutern?

Tim Bohne: Derzeit arbeiten wir an zwei großen Themen: der Entwicklung eines Demonstratorsystems und der systematischen Evaluation der Gesamtarchitektur der Diagnosesoftware. Während das Demonstratorsystem praktische Probleme adressiert, ist die systematische Evaluation auf Basis synthetischer Probleminstanzen eher ein theoretischer Ansatz, um die korrekte Funktionalität und Grenzen des Systems wissenschaftlich zu belegen. Die Gesamtarchitektur haben wir bereits Ende letzten Jahres in einem Paper vorgestellt.

Autowerkstatt 4.0: Was ist das Ziel der Evaluation?

Bohne: Wir generalisieren darin nicht nur die Architektur, sondern zeigen auch, wie das System unter verschiedenen Bedingungen funktioniert. Dafür haben wir anhand bestimmter Parameter rund 4.000 randomisierte Probleminstanzen erzeugt und gelöst, um unter anderem zu demonstrieren, dass das System fehlerfrei arbeitet. Solche Testfälle sind wichtig, um die Performanz unter verschiedenen Bedingungen zu prüfen. Durch diese systematische Vorgehensweise stellen wir sicher, dass die entwickelte Architektur nicht nur in einem spezifischen Problemfall, sondern auch über ein breites Spektrum von Situationen und Domänen hinweg robust und zuverlässig ist. Dies ist entscheidend, um das System auf verschiedene Anwendungsbereiche zu übertragen und potenziellen Nutzern eine Einschätzung der praktischen Effektivität und Grenzen für die jeweilige Domäne zu ermöglichen.

Autowerkstatt 4.0: Apropos Praxis, wie genau funktioniert das Demonstratorsystem?

Bohne: Das System basiert auf einem iterativen, hybriden, neurosymbolischen Ansatz. Das heißt, wir kombinieren eine symbolische Ontologie, die kausale Zusammenhänge zwischen Fahrzeugkomponenten abbildet, mit datenbasiertem Deep Learning zur Anomalieerkennung. Die symbolische Seite nutzt Expertenwissen, um Zusammenhänge zu definieren, während die konnektionistische, subsymbolische Seite unstrukturierte Sensordaten analysiert. Beide Systeme arbeiten zusammen, um das Gesamtproblem zu lösen. Eine State Machine definiert den Diagnoseprozess und regelt die Kommunikation zwischen symbolischer und konnektionistischer Seite. Die Idee des Demonstratorsystems ist nun, einen isolierten, praktisch relevanten Fehlerfall zu betrachten, der das Zusammenspiel sämtlicher Module illustriert. Zu diesem Zweck wurde die Ontologie mit Expertenwissen zu diesem Fall instanziiert und die entsprechenden Sensorsignale aufgezeichnet, die zum Training der Deep-Learning-Modelle verwendet werden.

Autowerkstatt 4.0: Welchen Fehlerfall haben Sie für das Demonstratorsystem gewählt?

Bohne: Ein konkretes Szenario im Demonstratorsystem ist der Fehlercode P0172, der ganz grob gesagt auf ein Problem mit der Lambdasonde hinweist. Tatsächlich liegt der betrachtete Fehler aber im Saugrohrdrucksensor. Das Fahrzeug erkennt, dass etwas nicht stimmt, erstellt aber einen Fehlercode, der nicht direkt auf die Lösung hinweist. Wir müssen also mit unserem System die tatsächliche Ursache finden, um zum Beispiel den Austausch falscher Fahrzeugkomponenten und damit Ressourcenverschwendung in der Werkstatt zu verhindern. Dieses prototypische Beispiel, das stellvertretend für Probleme steht, bei denen die On-Board-Diagnose lediglich auf Begleiterscheinungen verweist, haben wir nun vollständig modelliert. Damit haben wir ein erstes Praxisbeispiel, das künftig als Referenz dient und über die verbleibende Projektlaufzeit erweitert werden kann.

Autowerkstatt 4.0: Warum haben Sie überhaupt die Notwendigkeit gesehen, ein Demonstratorsystem zu entwickeln?

Bohne: Bisher waren die Voraussetzungen zur Entwicklung der KI-Modelle noch nicht ideal. Wir müssen etwa eng mit Fahrzeugexperten aus den Werkstätten zusammenarbeiten, um die gesammelten Daten mit ihrem Wissen anzureichern. Dieses branchenspezifische Wissen fehlt derzeit noch häufig. Wir haben zwar eine Wissenserwerbskomponente entwickelt, die es Experten erleichtert, die entsprechenden Zusammenhänge im System einzugeben. Dennoch bleibt es schwierig, die notwendigen Daten aufzuzeichnen, zu labeln und parallel dazu das zugehörige Expertenwissen zu erheben. Die Datensätze, die wir bisher erhalten haben, waren zudem oft zu klein und nicht repräsentativ genug, um alle relevanten Fälle abzudecken. Die aufgezeichneten Sensordaten haben zum Beispiel häufig ausschließlich reguläre Betriebszustände umfasst. Es gab wenige Samples, die Fehler oder Anomalien darstellen. Für den Fortschritt des Projektes benötigen wir allerdings ein breites Spektrum möglicher Szenarien.

Autowerkstatt 4.0: Was ist Ihre Lösung dafür?

Bohne: Eine Erweiterung der Datenbasis. Um mehr Trainingsdaten zur Verfügung zu haben, setzen wir auf synthetische, also künstlich generierte Samples. Diese erstellen wir durch Data Augmentation, wobei wir reale Datensignale kombinieren und modifizieren, um neue, plausible Signale zu erzeugen. Wir erhöhen also die Diversität und Quantität der Trainingsdaten, ohne zwingend auf weitere Messungen angewiesen zu sein.

Autowerkstatt 4.0: Welche Techniken nutzen Sie, um solch künstliche Daten zu erzeugen?

Bohne: Eine Technik zur Generierung synthetischer Daten, die wir unter anderem im Projekt anwenden, ist das Pattern Mixing. Damit können wir neue Daten erzeugen, die statistisch den realen Messsignalen ähneln, um die Trainingsdatensätze zu erweitern und die Modellgenauigkeit und Generalisierungsfähigkeit zu verbessern. Wir kombinieren dafür Muster oder Segmente aus existierenden Zeitreihendaten, um neue Datenpunkte zu erzeugen. Auf diese Weise synthetisierte Daten helfen uns, eine größere Vielfalt an Szenarien abzudecken und bessere Modelle zu trainieren.

Autowerkstatt 4.0: Könnten die Ergebnisse durch künstliche Daten nicht verfälscht werden?

Bohne: Das Risiko besteht natürlich. Sobald wir Signale kombinieren und glätten, könnten wichtige Details verloren gehen, die für die Diagnose von Anomalien oder Fehlern entscheidend sind. Wir sorgen aber dafür, dass das Risiko der Verfälschung so gering wie möglich ist. Das Pattern Mixing zielt darauf ab, die strukturellen Eigenschaften und statistischen Merkmale der Originaldaten zu bewahren. Dies stellt sicher, dass die synthetischen Daten möglichst realistisch und nützlich für das Training von Modellen sind. Ein wichtiger Punkt dabei ist, dass wir synthetische Daten nie als Testdaten verwenden, sondern lediglich zur Ergänzung der Trainings- und Validierungsdaten. Während des Trainingsprozesses lernen die Modelle aus den synthetischen Daten, aber die abschließende Evaluation ihrer Leistung erfolgt ausschließlich anhand realer, ungesehener Daten. Dies stellt sicher, dass die Modelle tatsächlich in realen Szenarien angewandt werden können.

Autowerkstatt 4.0: Und wie stellen Sie sicher, dass die künstlichen Daten auch wirklich realistischen Szenarien entsprechen?

Bohne: Indem wir die Performance der Modelle regelmäßig auf Realdaten überprüfen. Es gibt aber auch Methoden wie den „Turing-Test für synthetische Daten”. Dabei wird überprüft, ob ein Classifier zwischen echten und künstlichen Daten unterscheiden kann. Wenn das Modell diese Unterscheidung nicht oder kaum treffen kann, ist das ein Indikator dafür, dass die synthetischen Daten den realen Daten sehr ähnlich und somit tendenziell gut geeignet für das Training sind.

Autowerkstatt 4.0: Werden synthetische Daten auch künftig in der KI-Entwicklung eine große Rolle spielen?

Bohne: Ja, auf jeden Fall. Synthetische Daten werden immer relevanter, insbesondere in Projekten wie AW 4.0, in denen ausreichend repräsentative Datensätze nur schwer zu erheben sind. Insbesondere im Hinblick auf seltene Ereignisse wie Anomalien. Die künstlichen Daten ermöglichen es, eine größere Vielfalt möglicher Szenarien abzudecken. Zudem bieten sie Vorteile im Hinblick auf Privatsphäre und Skalierbarkeit und sie können natürlich auch die Kosten in der Datenerhebung senken. Wir sehen definitiv ein großes Potenzial und einen wachsenden Bedarf an synthetischen Daten in der KI-Entwicklung.

Autowerkstatt 4.0: Abschließend: Was sind Ihre nächsten Schritte im Projekt Autowerkstatt 4.0?

Bohne: Als nächstes wollen wir das Demonstratorsystem weiterentwickeln und zum Beispiel das Expertenfeedback zum Labeling der Daten integrieren. Langfristig planen wir, komplexere und praktisch relevantere Fehlerfälle zu untersuchen und die Methoden zur Datensynthese und -verarbeitung weiter zu verfeinern. Wir hoffen, dass die kommenden Rollouts im Sommer eine ausreichende Datenbasis dafür liefern.

Autowerkstatt 4.0: Vielen Dank für das Gespräch!