„dpa-Recherche“: In fünf Schritten zum eigenen RAG
Künstliche Intelligenz

„dpa-Recherche“: In fünf Schritten zum eigenen RAG

In Kürze geht es los: Die dpa-Berichterstattung wird zur KI-Antwortmaschine für Journalistinnen und Journalisten. So, wie es die User von ChatGPT und Co. bereits kennen. Statt Linkssammlungen liefert dpa-Recherche fertige Zusammenfassungen auf Basis des dpa-Archivmaterials. Im Fokus unserer Zusammenarbeit mit You.com steht aktuell die Entwicklung eines Retrieval Augmented Generation (RAG)-Modells – einer „Suchmaschine on Steroids“.

Auf dem Weg zum eigenen dpa-RAG und damit zur „Nachrichten-Recherche 2.0“ haben wir in den vergangenen Monaten entscheidende Fortschritte erzielt. In diesem Blogbeitrag zeigen wir die fünf wichtigsten Entwicklungsschritte unserer KI-Antwortmaschine – von der ersten Schnittstelle bis zur täglichen Nutzung. Außerdem erfahrt ihr, wann unser RAG auch für Kunden verfügbar sein wird.

1. API-Anbindung: Der erste Schritt zur Datenbasis

Zu Beginn unserer Vision stand ein Kennenlernen: Der Startschuss für dpa-Recherche fiel mit einem zweitägigen Workshop in Hamburg, bei dem die Projektteams von You.com und dpa gemeinsam die Grundlagen legten. Ziel war es, möglichst schnell die API zu implementieren und überhaupt erst einmal Antworten auf Basis von Daten generieren zu können. Außerdem ging es darum, ein gemeinsames Verständnis zu schaffen: Welche Textarten produziert dpa? Wie unterscheiden sich klassische Meldungen von Zusammenfassungen? Wie gehen wir mit zurückgezogenen oder korrigierten Meldungen um?

Ein Vorteil: Die Zeitverschiebung zwischen Hamburg und der US-amerikanischen Westküste spielte uns in die Karten. Über Nacht erzielte das You.com-Team erste Fortschritte – und innerhalb von 24 Stunden waren erste Antworten auf Basis von dpa-Daten sichtbar.

Ein erstes Erfolgserlebnis: So sahen unsere generierten Antworten zu Beginn aus.
2. Archiv-Erweiterung und Feintuning des Modells

Eine gute Recherche braucht eine solide Datenbasis. Deshalb war der nächste Schritt, unser dpa-Archiv bis ins Jahr 2020 zu integrieren. Mit der zusätzlichen Tiefe der Daten wurden die Antworten des RAG-Systems erheblich verbessert, da historische Kontexte und fundierte Informationen besser abgebildet wurden.

Doch mit der Quantität der Daten allein war es nicht getan. Es ging auch darum, das Modell so zu optimieren, dass es den hohen journalistischen Standards der dpa gerecht wird. Entscheidend dabei: Das RAG sollte nur dann Antworten liefern, wenn die zugrunde liegenden Daten ausreichend valide sind. „Halluzinationen“, also falsche oder spekulative Antworten, sollten so weit wie möglich verhindert werden.

Ein gemeinsamer Blick auf die Vielzahl an Meldungstypen, die dpa täglich produziert, sei der „Startpunkt für ein erfolgreiches Finetuning“, erklärt dpa-Projektleiter Andreas Gansterer: „Während ein sogenannter Nachrichtenüberblick die wichtigsten Meldungen eines Tages liefert und in der Form sehr wichtig für dpa-Kunden ist, sorgt er für ein RAG eher für Verwirrung: eine einzige Meldung, die unzählige weitere Themen(-Überschriften) enthält und somit potentiell oft als Suchergebnis in Frage kommt. Obwohl es für jedes einzelne Thema aus der Überblicks-Meldung geeignetere Suchresultate gibt. Hier haben wir gemeinsam mit Redaktion, IT und You.com unterschiedliche Filterungen definiert.“

„Ein gemeinsamer Blick auf die Vielzahl an Meldungstypen, die dpa täglich produziert, ist der Startpunkt für ein erfolgreiches Finetuning.“

3. Echtzeit-Daten: Aktualität als Qualitätsmerkmal

Die Nachrichtenwelt dreht sich schnell. Umso wichtiger war es, das RAG mit Echtzeit-Daten zu verbinden. Dies setzten wir mit dem Echtzeit-Produkt Digital Wires um. So werden neue Nachrichten nahezu in Echtzeit, also im Bereich einer Minute, in die Datenbank des RAG aufgenommen.

Zugleich stellte sich die Frage, wie aktualisierte, korrigierte oder zurückgezogene Informationen aus der Datenbank entfernt werden können. Insbesondere bei einer Nachrichtenagentur wie dpa ist dies ein wichtiger Aspekt des Redaktionsalltags. Dies galt es auch in der Entwicklung von dpa-Recherche zu berücksichtigen, um fehlerhafte Antworten zu vermeiden.

4. Vom Prototypen zum Produkt: Ein nutzerfreundliches Frontend

Nicht nur im Hintergrund wurde an den Daten gearbeitet – auch die Benutzeroberfläche musste optimiert werden, um ein ansprechendes Nutzungserlebnis zu schaffen. Nach dem Vorbild von ChatGPT wurde ein Interface entwickelt, das mit flüssigen, gestreamten Antworten arbeitet. So hebt sich dpa-Recherche klar von einer klassischen Suchmaschine ab.

Ein weiteres Qualitätsmerkmal ist die Transparenz: Jede Antwort wird mit den zugrunde liegenden dpa-Quellen verknüpft, die sich per Klick einsehen lassen. Zudem können Nutzerinnen und Nutzer die Antworten bewerten – per Daumen-hoch/-runter-Funktion. Dieses Feedback fließt direkt in die Weiterentwicklung des Modells ein und wird automatisch an You.com übermittelt.

Noch intern, aber schon bald für Kunden: „dpa-Recherche“, integriert in den dpa-News-Hub.
5. Testen, testen, testen: Der Weg zum Ziel

Einer der wichtigsten Schritte auf dem Weg zum RAG ist und bleibt das Finetuning. Bereits in einer frühen Phase wurde das System von einer Gruppe KI-affiner Redakteurinnen und Redakteure aus verschiedenen Ressorts getestet. Das Feedback war zunächst allgemein gehalten: „Welche Eindrücke habt ihr? Was fällt euch auf?“ Mit der Zeit wurde es jedoch systematischer: Prompts und Antworten wurden dokumentiert und nach „Hard Errors“ (falsche Informationen) und „Soft Errors“ (Ungenauigkeiten) bewertet.

Heute erfolgt das Feedback direkt über die Benutzeroberfläche. Jede Anfrage wird anonymisiert getrackt, über Slack stehen wir mit dem Projektteam von You.com im regelmäßigen Austausch. So stellen wir sicher, dass das RAG stetig besser wird und den Anforderungen der Redaktion entspricht.

Ausblick: Interessierte Kunden erhalten Zugriff auf die KI gestützte dpa-Recherche

Mit dpa-Recherche haben wir einen entscheidenden Schritt in Richtung innovativer Nachrichten-Recherche gemacht. Von der API-Anbindung über die Echtzeit-Integration bis hin zum Finetuning: Jeder Meilenstein bringt uns dem Ziel näher, Journalistinnen und Journalisten ein leistungsstarkes Tool an die Hand zu geben, das präzise, schnell und transparent arbeitet.

Die Zusammenarbeit mit You.com zeigt, wie viel Potenzial in der Verbindung von KI und journalistischem Know-how steckt. Wir sind überzeugt, dass unser dpa-RAG die Recherchearbeit von Redaktionen nachhaltig verändern wird – und freuen uns darauf, diesen Weg zukünftig auch mit Kundinnen und Kunden weiterzugehen. So wird dpa-Recherche schon Ende Februar für ausgewählte Kunden in unseren dpa-News-Hub integriert und der Zugang zu faktenbasierten, geprüften und nach journalistischen Kriterien hochwertigen Informationen erleichtert.  

Sprecht uns bei Interesse jederzeit über unsere Adresse KI@dpa.com an.  

You may also like