Ziele

Das Projektvorhaben verfolgt die Entwicklung eines interdisziplinären Ansatzes zur echtzeitnahen, automatisierten Verarbeitung von Daten zur Informationsgewinnung mittels ML-Verfahren.

Erprobung und Demonstration

Ziel ist es, prototypische Lösungen zu entwickeln, welche die Nutzung von Verfahren des maschinellen Lernens bei der Bewältigung aktueller Herausforderungen aufzeigen und das Potenzial besitzen, Unternehmen am Standort Sachsen einen Wettbewerbsvorsprung zu ermöglichen. Zu diesem Zweck werden innerhalb des Arbeitspakets AP 6 spezifische Teilprojekte umgesetzt, die sich an den Anwendungsbeispielen orientieren. Die Sicherstellung der Zielerreichung wird u.a. dadurch gewährleistet, dass pro Anwendungsfall mindestens ein Unternehmen sowie ein Forschungspartner gemeinsam an der Lösung und Umsetzung beteiligt sein werden.

Referenzarchitektur und Methodenentwicklung

Die interdisziplinäre Entwicklung von Methoden und Architekturen zur Unterstützung des Gesamtziels und zur gemeinsamen Erarbeitung neuer Inhalte soll durch die gemeinsame Entwicklung eines architekturellen und methodischen Grundgerüsts gefördert werden. Auf Basis eines wissenschaftlichen Vorgehens sollen geeignete Methoden evaluiert und den speziellen Bedürfnissen des InnoTeam-Vorhabens angepasst werden. Eine Referenzarchitektur soll den Umgang mit heterogenen Daten, die aufgrund sehr unterschiedlichen Anwendungsfälle auftreten werden, sowie deren Verarbeitung mittels Methoden des maschinellen Lernens für alle Partner gleichsam ermöglichen.

Projekt- bzw. Geschäftsmodellentwicklung

Neben der Bearbeitung der Anwendungsfälle sollen anwendungsfallübergreifende Gemeinsamkeiten identifiziert werden, die neue Kooperationsmöglichkeiten erbringen können. Auf Basis dieser Gemeinsamkeiten sollen konkrete Ideen zu Folgeprojekten oder neuen Geschäftsmodellen erarbeitet und damit die Nachhaltigkeit des Projektvorhabens gefördert werden. Ziel ist es weiterhin, Synergiepotenziale auszuloten und Best Practices zu identifizieren, die eine Übertragung bestehender Lösungen bspw. auf die anderen Anwendungsfälle ermöglichen. Damit soll ebenfalls gewährleistet werden, dass eine Wissensübertragung zwischen den Kooperationen stattfindet.

Fortbildungs- und Qualifizierungsmaßnahmen

Zur Sicherstellung des interdisziplinären Wissens- und Erfahrungsaustauschs sind regelmäßige Workshops geplant, die einen fachspezifischen Zuschnitt erhalten werden. Damit soll sichergestellt werden, dass partnerspezifisches Wissen mit anderen Teilnehmern des Projektkonsortiums geteilt werden kann. Weiterhin soll eine bessere Vernetzung der einzelnen Mitarbeiter über die Partner hinweg bei den Mitarbeitern für ein größeres Verständnis der Bedürfnisse der Partnerorganisationen sorgen, welches wiederum mittelbar Einfluss auf die Lösungen hat und langfristig Synergieeffekte erzeugt.

Grundsätze & Querschnittsaufgaben

  • Nachhaltige Entwicklung und gesellschaftlicher Nutzen durch Effizienzverbesserungen und Ressourcenschonung bei der Rohstoffnutzung
  • Kompetenzförderung und die Weitergabe an regionale Partner
  • Erhöhung des Anteils an Frauen in MINT-Berufen und Abbau berufsspezifischer Stereotypen durch eine gezielte Ansprache und Förderung weiblicher Studenten
  • Digitalisierung bisher weniger beachteter Gesellschafts- und Wirtschaftsbereiche
MINDSET partners

Anwendungsfälle

Neue Methoden zur Integration, Speicherung und einem effizienten Zugriff sowie die wachsende Rechenleistung ermöglichen den Einsatz von Analyseverfahren, deren Ausführung bisher zu ressourcenintensiv für einzelne Unternehmen war.

Integration von Geschäftsdaten

Bedingt durch historisch gewachsene Systemlandschaften und die damit einhergehende dezentrale Organisation von Informationssystemen zeichnen sich Geschäftsdaten durch eine hohe Heterogenität aus. Somit müssen für eine Analyse einzelner Geschäftsfelder die dafür relevanten Datenquellen zunächst integriert werden, um die Informationen konsistent abfragen zu können.

Die dafür notwendige Vorverarbeitung der Daten ist oft aufwendig und benötigt häufig 50%–70% der Gesamtzeit der Datenanalyse. Eine etablierte Methode ist das Herstellen einer integrierten Sicht auf verteilte Daten, indem die Datenquellen auf ein semantisches Vokabular (Ontologie) abgebildet werden (Datenlifting). Die manuelle Erstellung dieser Lifting-Regeln ist zeitintensiv und benötigt detaillierte Kenntnisse des Regelmodells und der verfügbaren Operatoren. Außerdem ist die Erstellung der Regeln für Systeme mit ähnlichen Daten oft repetitiv, da oft gleiche Informationen in verschiedenen Systemen leicht unterschiedlich repräsentiert werden. Ziel ist die Entwicklung von Verfahren, um Lifting-Regeln semi-automatisch zu generieren. Dafür sollen Datenprofiling und Matching-Algorithmen verwendet werden, um Lifting-Regeln maschinell zu generieren, welche eine gegebene Datenquelle auf ein semantisches Vokabular abbilden.

Entwickelte Verfahren sollen in zwei Bereichen getestet werden: bei einem Industriepartner aus dem Supply-Chain-Bereich zur Analyse der Daten und Berechnung kritischer KPIs (Leistungskennzahlen) und in der Branche der Erneuerbare-Energien für Windenergieanlagen, bei denen eine sehr heterogene IT-Landschaft besteht.

Auswertung von Texten

Schwerpunkt soll die Anwendung von maschinellen Lernverfahren bei der automatischen semantischen Analyse von Text sein. Die bisher in diesem Bereich eingesetzten Verfahren lassen sich in regelbasierte und statistische Ansätze unterscheiden. Beide Ansätze schließen sich nicht gegenseitig aus und werden bei konkreten Text Mining Anwendungen in der Praxis meist miteinander kombiniert.

Die in jüngster Zeit entwickelten ML-Verfahren, insbesondere die Verwendung von neuronalen Netzen, ermöglichen es nunmehr, dass interessante Muster in Texten gelernt werden können, ohne dass vorher mögliche Muster aufwändig definiert werden mussten. Vielmehr lernt das neuronale Netz selber diejenigen Muster, die für die definierte Aufgabe am besten geeignet sind (durch Minimierung der Fehlerfunktion). Neben Klassifikationsaufgaben (multi-layer perceptrons) werden neuronale Netze bereits erfolgreich beim Lernen von Übersetzungen oder Paraphrasen (sequence2sequence) sowie dem Lernen semantisch ähnlicher Wörter (word2vec) eingesetzt. Der Einsatz dieser Verfahren ermöglicht eine deutliche Verbesserung bisheriger Ansätze im Hinblick auf die Qualität der Ergebnisse.

Als aktuelles und hochdynamisches Forschungsgebiet gibt es im Bereich des maschinellen Lernens mit neuronalen Netzen inzwischen eine ganze Reihe von Verfahren, von denen nicht klar ist, welche davon für Textanwendungen besonders geeignet sind. In Zusammenarbeit mit den Industriepartnern sollen diese Verfahren kompetent bewertet werden und untersuchen, wie sie zur Verbesserung bestehender Produkte oder für die Entwicklung gänzlich neuer Produkte einsetzen werden können. Hierfür sollen geeignete Softwarelösungen ausgewählt, erprobt und evaluiert werden.

Anomalieanalyse und Angriffserkennung

Unbekannte Bedrohungen durch unentdeckte Schwachstellen und Schadsoftware stellen eine Herausforderung für die derzeitige IT-Sicherheit dar. Insbesondere IoT-Geräte, welche sich jahrzehntelang im Einsatz befinden, sind hiervon betroffen. Hinzu kommt das Schadenspotenzial eines erfolgreichen Angriffs auf diese Geräte, denn sie übernehmen Aufgaben in allen erdenklichen Gebieten des Alltags.

Ziel ist es daher, unbekannte Bedrohungen in Echtzeit zu erkennen, damit passende Gegenmaßnahmen rechtzeitig getroffen werden können. Im Rahmen dieses Förderprojektes soll eine Anomalieanalyse des Netzwerkverkehrs in sensiblen Netzwerken mit Hilfe von Methoden des maschinellen Lernens ermöglicht werden. Hierbei spielt insbesondere der durch Vernetzungseffekte exponentiell zunehmende Anteil von verschlüsselter Kommunikation eine entscheidende Rolle, da derzeitige algorithmische Ansätze diesen nicht mehr erfassen und tiefgreifender untersuchen können.

Das Fördervorhaben soll dafür einerseits die dafür passenden ML-Methoden untersuchen und bewerten, andererseits einen prozessorientierten Ansatz aufstellen, wie die Anomalie- und Angriffserkennung für IoT-Gerät erfolgen kann.

Qualifikationen

Im Vordergrund eines InnoTeams steht die Qualifikation der Mitarbeiter der teilnehmender Partner. Zu diesem Zweck wurde im Rahmen des InnoTeams MINDSET die nachfolgenden Qualifikationsmöglichkeiten identifiziert. Sie sind im wesentlichen auf technologische und analytische Kompetenzen ausgerichtet.

Echtzeitnahe Verarbeitung von Datenströmen

Die effiziente Verarbeitung von Datenströmen sowie deren automatisierte Verarbeitung und Analyse stellt Unternehmen noch vor große Herausforderungen. Die Nutzung maschineller Lernverfahren erschwert dies noch zusätzlich, da existierende Verfahren und Frameworks derzeit nur rudimentäre Unterstützung oder gar nur Workarounds anbieten. Über das Projektvorhaben sollen Teilnehmer in die Lage versetzt werden, bestehende Verfahren oder Frameworks hinsichtlich der Eignung zu bewerten, sowie eine Parametrisierung der Verfahren oder Frameworks durchzuführen. Mit Hilfe der zu entwickelnden Analytikplattform können hierzu Tests während der Projektlaufzeit bereits durchgeführt werden. Die Teilnehmer sollen darüber hinaus in die Lage versetzt werden, Methoden und Architekturen zur Verarbeitung von Datenströmen in Echtzeit zu verstehen und zu konzipieren und darauf aufbauend anwendbare ML-Verfahren passend zu parametrisieren und Analysen auf Datenströmen durchzuführen.

Analytik- und Modellbildung

Begründet durch den Fokus des Projektvorhabens auf der Umsetzung von Analysen auf Datenströmen sind Fachkenntnisse in den Bereichen Modellbildung, Statistik und insbesondere Maschinelles Lernen erforderlich. Zusätzlich zu den technischen Kenntnissen und Fertigkeiten bedarf insbesondere die Modellbildung auch Kenntnisse der Fachdomänen, für die Modelle bzw. Analysen erstellt werden sollen. Die Teilnehmer werden im Laufe des Projektvorhabens dahingehend geschult, dass sie vollständige Ansätze (z.B. Analog zu CRISP-DM oder DataOps) zur Wertschöpfung aus Daten sowohl kennen als auch anwenden können. Darüber hinaus sind sie damit in der Lage, in diesem Themenbereich zu forschen oder in Unternehmen tätig zu sein, um Analytik-Anwendungen zu entwerfen.

Verteilte Datenverarbeitung und -speicherung

Die verteilte Verarbeitung und Speicherung großer und heterogener Datenmengen ist ein Thema, welches eine wachsende Bedeutung hat. Durch die Neuartigkeit sind bisher nur wenige umfassende Möglichkeiten zur Aus- und Weiterbildung in diesem Bereich vorhanden. Im Projekt werden die Mitarbeiter in die Lage versetzt, verschiedene Konzepte der Gestaltung und Entwicklung verteilter Systeme zu beherrschen und im Rahmen der Anwendungsfälle des Projektes anzuwenden. Im Anschluss daran sind sie in der Lage, die daraus entstandenen Erkenntnisse und Erfahrungen für wissenschaftliche Arbeiten zu nutzen oder diese in der Wirtschaft weiterzugeben.

Datenschutz und -sicherheit

Durch das Spannungsverhältnis zwischen gesetzlichen Vorgaben zur Privatsphäre und der Datennutzung in Analytik-Anwendungen besteht hoher Sensibilisierungsbedarf. Im Laufe des Projektvorhabens wird dies zunehmend wichtiger werden, da gerade die massenhafte Analyse aufgrund der automatisierten Verarbeitung grundsätzlich ein hohes Missbrauchspotenzial besitzt bzw. Nutzungsrisiken birgt. Die Teilnehmer werden Kompetenzen in der Anwendung von Methoden für den Datenschutz erwerben, aber auch neueste Erkenntnisse bzgl. rechtlicher Aspekte zum Thema Datenherkunft, -nutzung und -eigentum kennenlernen.

Architektur

Diese erste Version der Gesamtarchitektur stellt einen vereinfachten Rahmen für die Aktivitäten während des Projektvorhabens dar.

  • Die unterste Ebene Analytikplattform stellt Basiskomponenten zur Verfügung. Die Plattform ist in einen Evaluierungs- und in einen Produktivteil aufgeteilt.
  • Die nächste Ebene Datenaufbereitung und Anreicherung dient der anwendungsfallübergreifenden Spezifikation von Datenprofilen, Parametersets und Workflowdefinitionen. Mit Hilfe von zu bereitstellenden Diensten sollen hier Analysepipelines bereitgestellt werden, die zur eigentlichen Analyse der Daten herangezogen werden.
  • Der Zugriff auf alle bislang beschriebenen Ebenen wird über eine Anwenderschnittstelle gewährt. Dies kann sowohl durch Bereitstellung eines Front-Ends als auch durch eine REST-basierte API erfolgen.

Roadmap