Signal Cruncher‘s XONBOT Text Matching

 

Was ist der XTM?

Die KI „XONBOT Text Matching“ (genannt XTM) von Signal Cruncher ist eine
Anwendung um große Textmengen auszuwerten.

Intelligenter Code

Das kann der XTM?

Beispiel Ausschreibungen:
Schauen wir uns das Beispiel Ausschreibungen an. Diese sind in hohem Grad Text-basiert und lassen sich nur schwer automatisch auswerten. Um basierend auf Ausschreibungspositionen beispielsweise passende Artikel zu finden, ist daher die manuelle Auswertung der Ausschreibungstexte notwendig. Das ist oftmals sehr zeitaufwendig und kann unter Nutzung des XTM reduziert werden. Aufgabe des XTM ist, wie bei diesem Beispiel, die automatisierte Zuordnung von Artikelnummern zu Ausschreibungspositionen.

Was machen wir?

Als Basis dienen historische Daten, welche aus bisher erfolgten manuellen Zuordnungen in einer großen Tabelle bereitgestellt werden. Die Aufgabe lautet, für jede neue Ausschreibung ist für jede Position automatisch die passende Artikelnummer zu finden. Dabei werden für jeden Artikel mehrere „Empfehlungen“ vorgeschlagen. In seiner einfachsten Variante besteht die Aufgabe somit darin, jedem Beschreibungstext eine Artikelnummer zuzuordnen.

Dabei erreichen wir eine Prognosegüte von 80-90%.

Wie machen wir das?

Auf historischen Daten wird ein Modell gelernt, welches die Zuordnung jeder Ausschreibungsposition zu ihrem zugeordneten Artikel vornimmt. Dieses kann dann auf neue Daten angewendet werden. Als Modell dienen Neuronale Netze.

Unser Konzept umfasst folgende Ansätze:

1. Vorverarbeitung: Nicht umfangreich, da moderne Neuronale Netze aufgrund automatischer Feature-Extraktion wenig Vorverarbeitung benötigen. Kern ist die Identifikation von Verweisen. Dies kann über empirisches Scoring unter Nutzung von Schlüsselwörtern geschehen (Güte über 90%).

2. Klassifikation: Lernt direkte Zuordnung von der Beschreibung zur Artikelnummer. Funktioniert nur für „Topseller“, also Artikel, welche mehrfach in Transaktionen auftauchen. Deckt knapp die Hälfte aller Transaktionen ab.

3. Regression: Lernt Abstände zwischen den Beschreibungen und Artikelstammdaten. Geschieht über Triplet-Lernen von Beschreibung zu Stammdaten von Positiv- und Negativ-Referenzartikeln. Damit wird jeder Beschreibung der Artikel mit dem geringsten Abstand zugeordnet. Deckt den „Long Tail“ ab, also auch Zuordnungen zu Artikeln, die selten oder nie in historischen Daten auftauchten.

4. Warenkorbanalyse: Es wird analysiert, welche Kombinationen von Artikeln üblicherweise in Ausschreibungen gemeinsam auftauchen. Dies wird zur Verbesserung der Klassifikationsgüte eingesetzt.

Die Implementierung

Der XTM wird als Docker-Container bereitgestellt und kann damit auf allen wichtigen Plattformen wie Windows, Linux und MacOS sofort installiert werden. Die Kommunikation geschieht im REST-Format über einen integrierten Webserver. Zum Lernen wird per POST eine Datei hochgeladen. Die Lösung kann On-Premise installiert oder als SaaS-Lösung betrieben werden.

Wofür kann man den XTM noch einsetzen?

Die Lösung ist für verschiedenste Aufgaben übertragbar. Im einfachsten Fall für die Klassifizierung von Beschreibungstexten. Dabei kann auch der Regressionsansatz benutzt werden: Hierbei wird jedem Artikel eine der ihm zugeordneten Beschreibungen als Referenzbeschreibung benutzt und dann über Triplet-Lernen der Abstand zwischen jeder Beschreibung und allen Artikeln gelernt. Artikel können beispielsweise auch durch Texte ersetzt werden und das Anwendungsfeld stark erweitern.

Glühbirne Idee Gedanken

Sie möchten mehr über unseren XTM erfahren oder haben Ideen für einen weiteren Anwendungsfall?
Dann nehmen Sie gerne Kontakt mit uns auf.