Künstliche Intelligenz erleichtert Dokumentensuche
Retrieval Augmented Generation: Hochsauerlandkreis setzt mit Hilfe der Fachhochschule Südwestfalen auf innovative Technologien
Iserlohn / Meschede: Der Hochsauerlandkreis setzt mit Hilfe der Fachhochschule Südwestfalen auf innovative Technologien, um die interne Dokumentensuche zu optimieren und Beschäftigten den Arbeitsalltag zu erleichtern. In seiner Bachelorarbeit hat Informatik-Student Lars Kutz hierfür ein Dokumenten-Suchsystem entwickelt, auf Basis von Retrieval Augmented Generation.
Betreut hat die Arbeit der Iserlohner Informatik-Professor Dr. Christian Gawron gemeinsam mit dem Leiter Verwaltungsdigitalisierung der Kreisverwaltung Marc Heines. Die Herausforderung: Die Mitarbeitenden im Jobcenter des Hochsauerlandkreises greifen täglich auf eine umfangreiche Wissensdatenbank zu, die wichtige Informationen wie Gerichtsurteile, Handlungsempfehlungen und Vorlagen enthält. „Die bisherige Suchfunktion basierte auf Stichwortsuche oder Navigation durch eine Baumstruktur“, so Heines. „Aufgrund der Größe der Datenbank gestaltete sich die Suche oft umständlich und zeitaufwändig.“
Die Lösung: In seiner Bachelorarbeit untersuchte und evaluierte Kutz verschiedene sogenannte Retriever-Methoden, um eine effiziente und skalierbare Dokumentensuche zu ermöglichen. „Retriever-Methoden sind Techniken, die verwendet werden, um relevante Informationen aus einer großen Datenbank oder einem Korpus von Texten abzurufen“, erklärt Gawron. „In der Retrieval Augmented Generation helfen diese Methoden dabei, die besten und relevantesten Dokumente oder Textabschnitte zu finden und mit diesen Informationen eine Antwort auf die gestellte Frage zu formulieren.“
Um die Datenaufbereitung zu optimieren, unterteilte Kutz die Dokumente
in kleinere Textabschnitte, sogenannte „Chunks“. Dabei testete er verschiedene Chunking-Strategien, die auf Zeichenlänge oder der Struktur der Dokumente basieren. Im nächsten Schritt ging es um die Auswahl geeigneter Algorithmen. Für das Abrufen relevanter Chunks aus der Datenbank verglich der Student verschiedene Retriever-Methoden. Zusätzlich untersuchte er den Einsatz von sogenannten Rerankern, die die Suchergebnisse anhand ihrer Relevanz neu ordnen. Für die Generierung der Antworten verwendete Kutz schließlich das Large Language Models gpt-4o-mini von OpenAI. „Dieses Modell zeichnet sich durch seine Kosteneffizienz und Rechenleistung aus“, so Kutz.
Für die Antworten des Systems gab es von den Beschäftigten des Jobcenters die Schulnote „gut“. „Die Evaluierung des Systems zeigt vielversprechende Ergebnisse und stellt damit eine wertvolle Grundlage dar“, meint Heines. Das neue Dokumentensuchsystem solle den Mitarbeitern des Jobcenters in Zukunft den Arbeitsalltag erleichtern und die Bearbeitung komplexer Aufgaben effizienter gestalten. „Als Hochsauerlandkreis unterstreichen wir damit unser Engagement bei der Nutzung innovativer Technologien im öffentlichen Sektor.“
_____________________
Quelle: Fachhochschule Südwestfalen
Bild: Von links: Marc Heines, Lars Kutz und Prof. Dr. Christian Gawron bei der Präsentation der Bachelorarbeit
Fotocredits: Uhl, Hochsauerlandkreis