Workshop "Data Science für Ingenieure"

Um die Interaktion und Zusammenarbeit zwischen der Datenwissenschaft einerseits und den Ingenieurwissenschaften andererseits innerhalb des KIT weiter zu fördern, organisiert unsere Forschungsgruppe am 5. April 2018 einen Workshop zum Thema „Datenwissenschaft für Ingenieure”. Doktoranden aus der Forschungsgruppe werden über ihre Erfahrungen berichten, wie datenwissenschaftliche Methoden/moderne Datenanalysemethoden konkret zur Lösung ingenieurwissenschaftlicher Probleme und zur Verbesserung technischer Systeme beitragen können oder bereits beigetragen haben. Die Referenten werden ihre jeweiligen Projekte und Anwendungsfälle als Ausgangspunkt nehmen und sich darauf konzentrieren, wie Ideen und Ergebnisse auf andere Bereiche übertragen werden können.

Es wird ausreichend Zeit für Fragen aus dem Publikum und Diskussionen geben.

Anfahrt

Das Event findet am 5. April, 2018 um 13:00 in AVG 50.41 Room 045/046 statt (via Kit Campus Map).

Registrierung

Diese Veranstaltung ist nicht öffentlich, die Einladungen wurden bereits verschickt. Wenn Sie als Mitarbeiter des KIT dennoch großes Interesse an einer Teilnahme haben, senden Sie uns bitte eine E-Mail (sekretariat Boehm ∂does-not-exist.ipd kit edu). Bei großer Nachfrage sind wir grundsätzlich bereit, diese Veranstaltung zu einem anderen Zeitpunkt durchzuführen.

Programm

13:00

Basics

User-Centric Data Synthesis (Adrian Englhardt)

In nahezu jedem Bereich der Technik werden Daten unterschiedlicher Art gesammelt. Es gibt Systeme, die solche Daten verarbeiten und unterschiedliche Informationsbedürfnisse abdecken. Um die volle Funktionalität und Leistung eines Systems, das Daten verarbeitet, zu validieren, stehen in vielen Fällen nicht genügend Daten zur Verfügung. Eine gängige Lösung besteht darin, (zusätzliche) synthetische Daten zu generieren. Solche Benchmark-Daten müssen vielfältig sein, um die Validierung eines breiten Spektrums von Zuständen eines Systems zu ermöglichen. Die Datenwissenschaft hat eine Vielzahl von Ansätzen zur Datengenerierung entwickelt. Die meisten Ansätze sind jedoch auf eine bestimmte Anwendung zugeschnitten und lassen sich nur schwer auf andere Umgebungen übertragen. In dem in diesem Vortrag vorgestellten Projekt konzentrieren wir uns auf die Perspektive des Benutzers, d. h. darauf, wie Daten mit geringem intellektuellem Aufwand synthetisiert werden können. Mit anderen Worten: Wir diskutieren, wie ein Benutzer direkt in den Synthesevorgang einbezogen werden kann. Unsere Kernidee ist, dass das vorgesehene System den Benutzer aktiv um Feedback zu bereits generierten Daten bittet. Darüber hinaus skizzieren wir unsere Ideen, wie die Einbeziehung von Benutzer-Feedback dazu beitragen könnte, ausreichend vielfältige Daten zu generieren..

User-centric Outlier Detection for Experimental and Simulation Data (Holger Trittenbach)

Die Erkennung von Ausreißern ist ein Data-Mining-Paradigma zur Entdeckung ungewöhnlicher Objekte in Daten. Typische Anwendungsfälle stammen aus technischen Disziplinen, in denen Forscher Beobachtungen identifizieren möchten, die im Vergleich zum Großteil ihrer experimentellen oder Simulationsdaten außergewöhnlich sind. Herkömmliche Methoden geben eine Rangfolge potenzieller Ausreißer an, überlassen jedoch die weitere Analyse dem Benutzer. Die Interpretation der Ergebnisse der Ausreißererkennung ist jedoch oft komplex, und nicht alle identifizierten Ausreißer sind möglicherweise gleichermaßen interessant.

In vielen Szenarien sind Benutzer bereit, Feedback zu geben, um die Qualität des Data Mining zu verbessern. In unserem aktuellen Forschungsstrang streben wir nach Methoden, die den Benutzer um Informationen bitten, um die Erkennung von Ausreißern zu verbessern. In diesem Vortrag diskutieren wir, wie ein solcher interaktiver Ansatz Forschern helfen kann, Ausreißer zu identifizieren und interessante Bereiche im Datenraum zu erkunden.

Generating Synthetic Outliers (Georg Steinbuss)

Ausreißer sind Datenobjekte, die im Vergleich zu den meisten anderen Datenobjekten ungewöhnlich sind. Viele Arten von Systemfehlern zeigen sich in Überwachungsdaten als Ausreißer. Zur Veranschaulichung denken Sie an eine Temperatur, die doppelt so hoch ist wie die übliche Temperatur eines Motors. Oft gibt es keine oder nur eine begrenzte Anzahl von Fällen, in denen Systemfehler in Überwachungsdaten auftreten. Daher ist es schwierig, ein Erkennungsmodell für Fehler auf der Grundlage von Ausreißern zu entwickeln und zu bewerten. In einem aktuellen Forschungsprojekt wollen wir möglicherweise neuartige Arten von Fehlern synthetisieren, indem wir künstliche Ausreißer erstellen. Der Prozess, den wir uns dafür vorstellen, besteht darin, viele künstliche Ausreißer zu erstellen und dann (durch Domänenbeschränkungen) zu überprüfen, ob sie potenziell realistische Systemfehler sind. Schließlich können die resultierenden künstlichen Systemfehler entweder zur Bewertung eines bestehenden Modells oder zur Entwicklung eines neuen Modells verwendet werden. Die Bewertung eines Modells mit diesem Verfahren liefert Erkenntnisse über die zu erwartende Qualität des Erkennungssystems. Beispielsweise darüber, welche Arten von Fehlern erkannt werden.

14:15

Pause, mit Kaffee/Getränken und Snacks

14:30

Vorträge

Discovering and Monitoring Relationships in Sensor Data (Michael Vollmer)

Während die Automatisierung immer mehr Einzug hält, ist eine manuelle Überwachung der beteiligten Geräte nicht mehr möglich. Die automatische Analyse der mit Sensoren gesammelten Daten ist eine vielversprechende Alternative. Allerdings werden bei dieser Analyse oft die einzelnen Sensoren separat bewertet, ohne die Beziehungen zwischen ihnen zu berücksichtigen. Diese Beziehungen und insbesondere ihre Veränderungen im Laufe der Zeit können wichtige Erkenntnisse über die Effizienz oder den Zustand der Geräte liefern. Es gibt zwar verschiedene Möglichkeiten, die Abhängigkeiten zwischen verschiedenen Sensoren zu quantifizieren und zu messen, doch konzentriert sich diese Sitzung auf das allgemeinste Maß, die „gegenseitige Information“ (MI). Wir werden die Vorteile, Anforderungen und Grenzen von MI in Bezug auf Sensordaten und andere Beziehungsmaße diskutieren. Darüber hinaus werden wir über modernste Techniken sprechen, um MI sowohl auf aufgezeichnete, „statische“ Daten als auch auf Streaming-Daten anzuwenden.

Knowledge Discovery in High-Dimensional Streams (Edouard Fouché)

„Knowledge Discovery in Databases“ (KDD) ist bekannt als der Prozess der Gewinnung nützlicher Erkenntnisse aus Daten. KDD ist bei hochdimensionalen Datenströmen eine Herausforderung, d. h. wenn (a) die Daten aus vielen Signalen bestehen, z. B. Hunderten oder Tausenden, und (b) sich die Daten im Laufe der Zeit auf unvorhersehbare Weise entwickeln können. „Knowledge Discovery in High-dimensional Streams“ (KD-HS) ist ein offenes Problem im Bereich des maschinellen Lernens. Andererseits ist es in vielen Szenarien äußerst nützlich: Wenn das in den Daten verborgene Wissen sofort extrahiert werden kann, können die Produktionsmengen gesteigert oder zusätzliche Kosten vermieden werden. Dies hätte erhebliche Auswirkungen auf „Predictive Maintenance“ und „Industrie 4.0“. In diesem Projekt wollen wir die Grundlagen für KD-HS schaffen. In diesem Vortrag stellen wir unsere aktuellen Arbeiten vor, darunter die Entwicklung neuartiger Methoden zur Schätzung der Korrelation zwischen multivariaten Strömen und die Überwachung von Korrelationsänderungen in hochdimensionalen Strömen. Wir geben einen Ausblick auf mögliche Anwendungen in Fertigungsprozessen, wie z. B. die Erkennung von Anomalien, Eindringlingen oder Datenclustern.

15:20

Pause, mit Kaffee/Getränken und Snacks

15:40

Use Cases

What data science can say about the energy behaviour of processes (Nicole Ludwig)

Mittlerweile sind viele Maschinen mit intelligenten Zählern ausgestattet, die den Energieverbrauch in Intervallen von weniger als einer Minute messen. Diese Messungen generieren eine erhebliche Menge an Daten, die wertvolle Informationen enthalten können. Diese Informationen zu finden, ist jedoch nicht trivial. Dieser Vortrag möchte einen Überblick darüber geben, was die Datenwissenschaft über den Energieverbrauch von Prozessen aussagen kann. Wir konzentrieren uns dabei auf die Suche nach Mustern in Zeitreihen, ohne vorherige Kenntnisse darüber zu haben. Zum Beispiel, wann ein Prozess beginnt und wie der reguläre Energieverbrauch einer bestimmten Maschine aussieht. Wir zeigen, wie die Analyse dieser Muster in der Industrie dazu beitragen kann, das zukünftige Energienetz zu stabilisieren. Darüber hinaus geben wir einen Ausblick darauf, wie andere Anwendungen im Maschinenbau von den vorgestellten Methoden profitieren können.

Concise metamodels of simulated systems (Vadim Arzamasov)

Simulationen oder Computerexperimente werden häufig eingesetzt, um die Eigenschaften physikalischer Systeme, z. B. Stromnetze oder Fahrzeuge, zu untersuchen. Simulationen ermöglichen es, Fragen wie „Wenn wir die Eigenschaften der Stromübertragungsleitung auf einen anderen Wert ändern, bleibt das Stromnetz dann stabil?“ oder „Wenn die Form des Autos anders ist, wird es dann schneller/sicherer?“ direkt zu beantworten. In jeder interessanten Simulation gibt es jedoch mehr als eine Eingabevariable. Beispielsweise kann die „Form des Autos“ dessen Länge, Höhe, Breite, Raddurchmesser oder die Position des Motors umfassen. Ein Stromnetz kann als ein System von Energieerzeugern und -verbrauchern modelliert werden, von denen jeder seine eigenen Eigenschaften und Verbindungen zu Übertragungsleitungen mit unterschiedlichen Kapazitäten hat. Dabei ergeben sich neue Arten von Fragen. Zum Beispiel:

Welche Eingaben haben einen großen Einfluss auf das System und welche nicht?
Was sind Wechselwirkungen zwischen Eingaben? Haben beispielsweise die Eingaben a und b eine Synergie, d. h. hat eine Änderung beider Eingaben einen Effekt, den man bei einer einzelnen Änderung ihrer Werte nicht erwarten würde?

Unterschiedliche Kombinationen von Eingabewerten können zu unterschiedlichen Simulationsergebnissen führen, und ihre Anzahl wächst exponentiell. Um die oben genannten Fragen beantworten zu können, sollte man daher entscheiden:

Für welche Eingabewerte sollen die Simulationen durchgeführt werden?
Wie viele Simulationen sollen durchgeführt werden?
Wie kann man ihre Ergebnisse so darstellen, dass sie einfach zu verstehen und dennoch aufschlussreich sind?
Wie kann man die Anzahl der Simulationen minimieren und dennoch die gleiche Ergebnisdarstellung erzielen?

Einige dieser Fragen wurden bereits ausführlich untersucht, beispielsweise die erste Frage, die auch als Versuchsplanung bezeichnet wird. Wir sind jedoch der Meinung, dass das Ergebnis besser ausfällt, wenn man sie gemeinsam betrachtet. In unserer aktuellen Arbeit wählen wir zunächst das Modell aus (Beantwortung von Frage 3). Anschließend befassen wir uns mit den anderen Fragen (1, 2 und 4).

16:30

Ende der Präsentationen, weitere Gelegenheiten zur Diskussion