Renuo – Erfolgreiche Datenaufbereitung in KI-Projekten

Von

/17.02.20

Mithilfe Künstlicher Intelligenz (KI) lassen sich Arbeitsabläufe automatisieren, Prognosen erstellen oder etwa neue Geschäftsfelder erschliessen. Um das ganze Potenzial zu nutzen, sind enorme Mengen an Daten notwendig. Diese müssen aber nicht nur zahlreich, sondern auch vollständig und von guter Qualität sein. Was diese Erfordernisse konkret bedeuten, zeige ich anhand dieses Blogposts auf. Die Datenaufbereitung und -analyse sind mindestens so wichtig (wenn nicht wichtiger) als die effektive Datenmodellierung ist.

Saubere Daten und doch ein Problem?

Seit 2015 führen wir mit der Firma eine Code- und Learningweek durch. Das letztjährige Thema der Weiterbildung war Künstliche Intelligenz. Im Rahmen verschiedener Workshops und Experimenten trainierten wir uns in Algorithmen und Datenaufbereitung. Die Trainings gestalteten wir anhand realer Szenarien und Daten zweier bestehenden Kunden von uns: schulerauktionen.ch und mtextur.com (an dieser Stelle: vielen Dank für das Einverständnis).

Im digitalen Archiv vom Auktionshaus Schuler Auktionen befinden sich knapp 80’000 Kunstobjekte. Pro Objekt kennen wir unter anderem Titel, Objektbeschreibung, Kunstgattung, Schätz- und Verkaufspreise und sogar 1 bis 15 Abbildungen. Darüber hinaus Google Analytics und interne Statistik-Metriken.

Das digitale Material-Archiv mtextur verfügt über knapp 50’000 CAD- und BIM Texturen für Architektur und Design. Pro Textur kennen wir unter anderem Hersteller, Materialart, Verwendungstyp, Klassifikation, Farbe, ca. 20 technische Kennziffern und 1 bis 10 Abbildungen. Darüber hinaus Google Analytics und interne Statistik-Metriken.

Sowohl bei Schuler Auktionen, als auch bei mtextur sind die Daten sauber und strukturiert vorhanden. Nichts steht somit einer einwandfreien Weiterarbeit im Wege – dachten wir zumindest. Als wir mit der Datenanalyse und -aufbereitung begannen, zeigten sich jedoch einige gängige Fallstricke.

Datensammlungen und ihre Tücken hinsichtlich Künstlicher Intelligenz

In beiden Projekten lag unter anderem das Ziel vor, anhand von Fotos die Klassifizierung vorhersagen zu können. Bei mtextur könnte man damit «erfolgreiche» Texturen für spezifische Bereiche erfinden (wir kennen die Erfolgsmetriken jeder Textur). Bei Schuler Auktionen dachten wir an einen Berater-Bot, welcher Endkunden den mutmasslichen Wert ihrer Kunstgegenstände voraussagt.

Um’s vorwegzunehmen: In beiden Projekten ist es uns aufgrund der Datenlage nicht gelungen, die beiden Ziele zu erreichen. In Anbetracht der grossen Datenmenge, welche gut aufbereitet und strukturiert vorlag, mag dies erstaunen. Weshalb war dies so?

Die Daten lagen in der Gesamtsumme zwar ausreichend vor, deckten jedoch nicht das gesamte Spektrum ab. So kennen wir von Schuler Auktionen zwar alle Auktionsobjekte und deren Verkaufspreis. Diese sind aber nur jene Objekte, welche es überhaupt in eine Auktion geschafft haben. Alle zum voraus aussortierten, wertlosen Gegenstände sind nicht dokumentiert. Diese sind aus Datensicht aber mindestens genauso spannend (und wichtig).
Die grosse Menge an Datensätzen verteilte sich bei beiden Projekten über ein grosses Spektrum. Da jedes Spektrum seine eigene Regeln hat (Beton ist anders als Holz, moderne Kunst unterliegt anderen Regeln als antike Waffen), reduzierte sich die Datenmenge jedoch drastisch. So lagen pro Klassifizierung nur noch einige tausend Datensätze vor – was bei weitem nicht ausreichte für unser Vorhaben.
Daten mögen sauber klassifiziert sein, aber die Verwendung der Klassifikationen und Hierarchien mag unterschiedlich angewendet werden. So legt Schuler Auktionen bei der Versteigerung einer bedeutenden Kunstsammlung eine eigens dafür geschaffene Kategorie an (zum Beispiel «Sammlung XY»). Die Kategorie «Sammlung XY» ist einer anderen Kategorie (zum Beispiel «Schweizer Gemälde») gleichgestellt. Was aus Nutzer-Sicht sinnvoll ist, verfälscht im Hintergrund den Datensatz. Ein Kunstobjekt der Gattung «Schweizer Gemälde» kommt plötzlich in zwei Kategorien vor.
Dinge, welche für uns Menschen schwierig zu unterscheiden sind (zum Beispiel: zeigt ein Foto echtes Holz oder Holzimitat), sind auch für Maschinen schwierig.

Obwohl wir pro Projekt zehntausende Datensätze mit 10 bis 20 gut strukturierten Datenattributen hatten, blieb die Datenmodellierung herausfordernd. Und noch hatten wir weder Code geschrieben, noch uns über passende Algorithmen Gedanken gemacht.

Die Datenanalyse ist immer zentral

Die beiden Beispielprojekte dokumentieren gut, wo innerhalb der Datenaufbereitung Fallstricke liegen können. Es wird deutlich, dass der Datengrundlage ein grosses Augenmerk gewidmet werden muss.

Die Homogenität der vorhandenen Daten kann die angenommene Datenmenge drastisch reduzieren. Stammen Ihre Daten aus einem breiten Feld oder decken sie eine Nische ab?
Scheinbar nutzlose Daten sind im Kontext von Künstlicher Intelligenz plötzlich zentral. Bei Schuler Auktionen sind es beispielsweise alle jene Objekte, welche abgewiesen werden. Welche Daten könnten dies bei Ihnen sein?
Strukturierte Daten sind noch nicht zwingend sauber getrennte Daten. Speichern Sie unterschiedliche Daten in dasselbe Attribut, oder «missbrauchen» Sie Ihre Software zwecks praktischem Workaround in manchen Bereichen?
Es ist sehr schwierig, Dinge zu validieren, welche wir Menschen selbst nicht können. Dies ist derzeit auch Thema vieler Forschungsprojekte (zum Beispiel das Erkennen von Deepfakes).

Erfolgreiche KI-Projekte beginnen mit einer detaillierten Datenanalyse und -aufbereitung. Es braucht viel Erfahrung, verbreitete Herausforderungen zu erkennen. Und es benötigt viel Wissen über die Daten selbst. Eine sehr enge Zusammenarbeit zwischen Kunde und Agentur ist für den Erfolg unablässig. Und wie sieht es mit den damit verbundenen Möglichkeiten aus? Ja, diese sind unendlich!

Sind auch Sie interessiert an KI und brauchen Sie Hilfe bei der Analyse Ihrer Daten? Lesen Sie mehr übers Thema oder kontaktieren Sie uns jetzt.

Diese Beiträge könnten Sie ebenfalls interessieren: