Wenn KI-Modelle auf unbalancierten, unvollständigen oder fehlerhaften Daten trainiert werden, kann das schwerwiegende Folgen für das errechnete Ergebnis haben. Bestehende Ungleichheiten können erlernt und damit noch vergrößert werden. Eine hohe Qualität der Datengrundlage ist daher unerlässlich, jedoch schwierig zu erreichen. "Ich fürchte, Daten sind nie perfekt," sagt Prof. Naumann. "Das ist eine Wunschvorstellung[.]. Nicht nur sollen sie relevant und vollständig sein, sondern es gibt noch viele weitere Eigenschaften. Sie sollten zum Beispiel aktuell sein, sie sollten glaubwürdig sein, verständlich, konsistent. Datenqualität kann man in vielen verschiedenen Dimensionen messen."
Um die Qualität dieser Daten zu erhöhen, gibt es daher auch verschiedene Ansätze. "Eine Möglichkeit besteht darin, die Trainingsdaten vor ihrer Verwendung zu bereinigen," erklärt Dr. Harmouch. Hier werden zum Beispiel weitere Datensätze hinzugefügt, die ein Ungleichgewicht ausgleichen. Mitunter kommen hier auch synthetische Daten zum Einsatz, die etwa im Anwendungsfall eines Einstellungsprozesses gleichzeitig den Datenschutz gewährleisten: "Wenn wir ein KI-Modell nicht mit Personaldaten füttern wollen, können wir statt diesen qualitativ hochwertige synthetische Daten generieren, die die gewünschte Stichprobe von Kandidaten für eine bestimmte Position simulieren."
Die gesamte Folge gibt es zu hören unter http://podcast.hpi.de/72-new-episode.
Falls Sie Interesse an einem Interview zum Thema "Datenqualität und KI" haben, melden Sie sich bitte bei presse@hpi.de.
Fundiertes Wissen über die digitale Welt, anschaulich und verständlich erklärt – das bietet der Wissenspodcast "Neuland" mit Experten des Hasso-Plattner-Instituts (HPI) unter: https://podcast.hpi.de, bei iTunes und Spotify. Einmal im Monat sprechen sie bei Neuland über aktuelle und gesellschaftlich relevante Digitalthemen, ihre Forschungsarbeit und über Chancen und Herausforderungen digitaler Trends und Entwicklungen.
Das Hasso-Plattner-Institut (HPI) in Potsdam ist Deutschlands universitäres Exzellenz-Zentrum für Digital Engineering (https://hpi.de). Mit dem Bachelorstudiengang "IT-Systems Engineering" bietet die gemeinsame Digital-Engineering-Fakultät des HPI und der Universität Potsdam ein deutschlandweit einmaliges und besonders praxisnahes ingenieurwissenschaftliches Informatikstudium an, das von derzeit rund 800 Studierenden genutzt wird. In den fünf Masterstudiengängen "IT-Systems Engineering", "Digital Health", "Data Engineering", "Cybersecurity" und "Software Systems Engineering" können darauf aufbauend eigene Forschungsschwerpunkte gesetzt werden. Bei den CHE-Hochschulrankings belegt das HPI stets Spitzenplätze. Die HPI School of Design Thinking, Europas erste Innovationsschule für Studenten nach dem Vorbild der Stanforder d.school, bietet jährlich 300 Plätze für ein Zusatzstudium an. Derzeit sind am HPI 21 Professorinnen und Professoren sowie über 50 weitere Gastprofessoren, Lehrbeauftragte und Dozenten tätig. Es betreibt exzellente universitäre Forschung – in seinen IT-Fachgebieten, aber auch in der HPI Research School für Doktoranden mit ihren Forschungsaußenstellen in Kapstadt, Irvine, Haifa und Nanjing. Schwerpunkt der HPI-Lehre und -Forschung sind die Grundlagen und Anwendungen großer, hoch komplexer und vernetzter IT-Systeme. Hinzu kommt das Entwickeln und Erforschen nutzerorientierter Innovationen für alle Lebensbereiche.
Hasso-Plattner-Institut für Softwaresystemtechnik GmbH
Prof.-Dr.-Helmert-Str. 2-3
14482 Potsdam
Telefon: +49 (331) 5509-0
Telefax: +49 (331) 5509-129
http://www.hpi.de
Telefon: +49 (331) 5509-471
E-Mail: leon.stebe@hpi.de
Presse
Telefon: +49 (331) 5509-375
E-Mail: joana.bussmann@hpi.de