Der interdisziplinäre Forschungszweig Data Science befasst sich mit dem Management und der Analyse von Daten. Data Science vereint somit Methoden, Verfahren und Algorithmen aus dem skalierbaren Datenmanagement (Big Data) und der Datenanalyse (einschließlich Statistik und Maschinelles Lernen) sowie Anwendungsspezifika bestimmter Domänen (beispielsweise in der Industrie oder dem Gesundheitssektor) zur Extraktion von Erkenntnissen aus strukturierten und unstrukturierten Daten.

Der interdisziplinäre Forschungszweig Data Science befasst sich mit dem Management und der Analyse von Daten. Data Science vereint somit Methoden, Verfahren und Algorithmen aus dem skalierbaren Datenmanagement (Big Data) und der Datenanalyse (einschließlich Statistik und Maschinelles Lernen) sowie Anwendungsspezifika bestimmter Domänen (beispielsweise in der Industrie oder dem Gesundheitssektor) zur Extraktion von Erkenntnissen aus strukturierten und unstrukturierten Daten. Plattform Lernende Systeme

Daten sind in unserer zunehmend digitalisierten Welt zu einem zentralen Rohstoff geworden. Ein umfassendes Datenmanagement sowie die Fähigkeit, die Daten überhaupt erst für die Analyse zugänglich zu machen, ist daher eine wichtige Voraussetzung, um die gewünschten Erkenntnisse – gewinnen zu können, etwa zur vorhersagenden Instandhaltung von Produktionsanlagen. Der interdisziplinäre Forschungszweig Data Science, also das Management und die Analyse von Daten, gilt daher schon heute als eine Schlüsseldisziplin. Auch für die weitere Anwendung von Künstlicher Intelligenz (KI) und Lernenden Systemen stellt die Verfügbarkeit von Daten und die Datenverwaltung eine zentrale Voraussetzung dar. Der Fokus bei Data Science liegt auf der Art und Weise, wie Daten verarbeitet, aufbereitet und analysiert werden. Durch wissenschaftlich fundierte Methoden, Prozesse, Algorithmen und Systeme können Erkenntnisse und Muster aus strukturierten und unstrukturierten Daten abgeleitet werden. Data Science-Methoden sind somit die Wegbereiter für die Anwendung und Nutzung von KI.

Welche Daten braucht meine KI?

Um vertrauenswürdige KI-Anwendungen zu schaffen, benötigen die Entwickler solcher Systeme neben Methodenkenntnissen aus dem Bereich des maschinellen Lernens beziehungsweise der KI vor allem Kenntnisse zur Datenmodellierung, Datentransformation und Datenintegration, aber auch Kenntnisse der Statistik, um Eigenschaften der Daten und die Qualität der Ergebnisse bewerten zu können, erklärt Prof. Kai-Uwe Sattler von der Fakultät für Informatik und Automatisierung der Technischen Universität Ilmenau. Er ist auch einer der beiden Autoren des White Papers ‚Von Daten zu KI‘ (PDF, 29 Seiten) der Plattform Lernende Systeme. Sattler weiter: „Zudem sind Kenntnisse aus den Bereichen Ethik und Recht hilfreich, um verantwortungsvoll mit den Daten umgehen zu können. Und natürlich ist auch umfassendes Anwendungswissen unabdingbar. Dies zeigt schon, dass es sich nicht mehr allein um klassische Software-Entwicklung handelt. Vielmehr sind dies Anforderungen, die einen interdisziplinären Zugang erfordern: Anwendungsexpertinnen und -experten benötigen zunehmend sogenannte Data Literacy-Expertise und Data Science-Fachleute müssen auch die Anwendungsdomänen verstehen. Hier wird sich sicher ein großer Bedarf an Weiterbildungsangeboten entwickeln.“

Die Basis vieler Data Science-Anwendungen sind Prozessketten, welche die Schritte der Datenerfassung, Auswahl, Bereinigung, Integration, Exploration, Analyse und Modellbildung bis hin zur Visualisierung und Interpretation umfassen. Diese Prozesse werden entweder explizit (prozedural oder deklarativ) spezifiziert und dann automatisiert ausgeführt oder eher implizit in interaktiver und explorativer Weise vollzogen.

Die Basis vieler Data Science-Anwendungen sind Prozessketten, welche die Schritte der Datenerfassung, Auswahl, Bereinigung, Integration, Exploration, Analyse und Modellbildung bis hin zur Visualisierung und Interpretation umfassen. Diese Prozesse werden entweder explizit (prozedural oder deklarativ) spezifiziert und dann automatisiert ausgeführt oder eher implizit in interaktiver und explorativer Weise vollzogen. Plattform Lernende Systeme

Inhaltsbeschreibung des White Papers

Das Whitepaper beleuchtet die Bedeutung, gesellschaftliche Relevanz und Nutzenpotentiale dieser Disziplin. Es benennt Beispiele für die Anwendung von Data Science-Methoden auf große Datenmengen und betrachtet die Prozessketten von Data Science-Anwendungen. Auf Basis der Analyse von Data Science-Prozessen und Datenmanagementtechnologien werden verschiedene Grundlagen dargestellt, die den Einsatz von Maschinellem Lernen und KI ermöglichen. Das Papier benennt auch Herausforderungen für die weitere Entwicklung von Data Science, wozu etwa der aufwendige Prozess der Erschließung der Daten und der Sicherstellung der notwendigen Datenqualität gehört.

Darauf aufbauend werden im Anschluss wichtige Datenmanagement-Technologien für Data Science erläutert. Neben der Datenverwaltung und -aufbereitung werden Datenbanken inzwischen nicht mehr nur für die Speicherung von Daten, sondern zunehmend auch für die Sicherung berechneter Modelle verwendet. Insgesamt werden Maschinelles Lernen und Datenbanken zunehmend integriert konzipiert. In Anknüpfung daran werden im Whitepaper Berufsfelder und wichtige Expertise-Felder für Data Scientists erläutert, wozu etwa Kenntnisse im Datenmanagement oder im Bereich der Statistik und des Maschinellen Lernens zählen. Anschließend werden Perspektiven und Ansätze aufgezeigt, um Daten für die Gesellschaft künftig noch effizienter und effektiver nutzbar zu machen und das Verständnis von Data Science-Prozessen und Datenmanagementtechnologien in unserer Gesellschaft zu fördern – einer Gesellschaft, in der die Erfassung, Verarbeitung und Analyse von Daten eine Grundlage für Wohlstand, Alltagserleichterungen und wissenschaftlichen Fortschritt darstellt. Als mögliche Handlungsoptionen gelten hier etwa die weitere Forschungsförderung sowie die Förderung im Bereich der Aus- und Weiterbildung, um so das Nutzenpotential der Schlüsseldisziplin Data Science ausschöpfen zu können.