Risikobewertung von Dokumenten mit KI - OpenText Magellan Risk Guard

Anwendungsbeispiel: Wie man eine Anbindung an die Magellan Risk Guard API von OpenText erstellt.

Risikobewertung von Dokumenten mit KI - OpenText Magellan Risk Guard

In einem früheren Blog-Artikel haben wir vorgestellt, wie man die REST-API OpenText RiskGuard mit nativen Funktionen von Synesty anbindet, ohne dass es bereits ein fertiges Synesty-Add-On gibt.

Jetzt haben wir ein neues Add-on für diese Verbindung entwickelt. In diesem Artikel zeigen wir, wie Sie dieses Add-on verwenden, um mit Synesty eine Verbindung mit der Schnittstelle aufzubauen, um Dokumente automatisch mit dem Risk Guard zu prüfen.

OpenText Magellan Risk Guard

Dank der Präsenz von ChatGPT sind KI-Services zur Zeit in aller Munde. Der Informationsmanagement Anbieter OpenText setzt KI in vielen ihrer Produkte ein.

Das Produkt Magellan Risk Guard ist uns dabei besonders ins Auge gesprungen, denn es hilft uns bei einem wichtigen Thema mit dem wir ständig in der E-Commerce und IT-Welt konfrontiert werden: Datenschutz und Compliance

Heutzutage steigt die Menge der in Unternehmenssystemen gespeicherten Informationen exponentiell. Damit nehmen leider auch die Risiken für Ihr Unternehmen und seine Reputation durch unangemessene oder vertrauliche Inhalte & Informationen zu. Eine manuelle Klassifizierung dieser Inhalte ist aufgrund der Datenmenge zeitaufwendig oder sogar schlicht unmöglich und außerdem anfällig für Fehleinschätzungen durch menschliche Fehler.

Was kann die Magellan Risk Guard Schnittstelle?

OpenText Magellan Risk Guard nutzt maschinelles Lernen, um Inhalte von Dokumenten zu erkennen. Das kann man für Texterkennung und Klassifizierung nutzen, um z.B. schädliche, sensible und unangemessene Texte, Bilder, Video- und Audiodateien in Unternehmensinhalten aufzudecken. Magellan Risk Guard ist als KI-Produkt und als API-Service für das Informationsrisikomanagement erhältlich und ermöglicht es Unternehmen, auf entdeckte risikobehaftete Inhalte zu reagieren, um die Compliance zu erhöhen und die Data Governance zu verbessern.

Der Magellan Risk Guard REST Service ist eine zustandslose API-Schnittstelle, die mit Magellan Text Mining Informationen aus Dokumenten extrahieren kann. Das kann man nutzen für z.B.:

  • Erkennung von PII (Persönlich identifizierbare Informationen wie z.B. Name, Email), Persönliche sichere Informationen (PSI wie Krankheitsdiagnosen, Zugangsdaten)
  • Klassifizierung von Bildern zur Erkennung von Bedrohungen/Risiken (Gewalt, Alkohol, Waffen) oder Erkennung von Hate Speech
  • Erkennung von Aufbewahrungsfristen für bestimmte Dokumente erkennen
  • Erkennung von Daten auf Rechnungsbelegen wie Ländercodeerkennung, z.B. zur steuerlichen Einordnung

Wer oder wozu braucht das?

Es gibt verschiedene Gründe, warum Unternehmen Ihre Daten automatisiert nach bestimmten Inhalten scannen sollten oder auch müssen, wie z.B.:

  • Eigentümer von systemrelevanten Plattformen sind verpflichtet, den von seinen Nutzern eingestellten Content zu überprüfen (Der European Union Digital Services Act (DSA) hat vorgesehen, dass jede Plattform, die von mehr als 10 Prozent der Bürger genutzt wird, als systemrelevant gilt.)
  • Ein Unternehmen wurde zu einer hohen Geldstrafe verurteilt, weil es Log-in- und Zahlungsinformationen von fast 400.000 Personen preisgegeben hat.
  • Eine bekannte Fast-Food-Kette durchlief einen PR-Skandal im Zusammenhang mit Nacktfotos von Mitarbeitern, die auf den Servern des Unternehmens gefunden wurden. (Quelle: https://blogs.opentext.de/wir-stellen-vor-opentext-magellan-risk-guard/)

Aktueller Fall: ChatGPT und Datenschutz

Um zu verhindern das sensible Daten versehentlich an externe Dienste wie ChatGPT übertragen werden (z.B. falls Sie unser ChatGPT Add-On nutzen), könnten Sie Ihre jeweiligen Anfragen vor Übertragung von der Magellan Risk Guard API auf personenbezogene oder sensible Daten Prüfen lassen, und nur die Daten übermitteln, die als unkritisch angesehen werden.

Dass das ein Problem ist, zeigt die Sperrung des KI-basierten Chatbot ChatGPT durch Italiens Datenschutzbehörde.

Tutorial - Anbindung von Synesty an die Magellan Risk Guard REST API zur Verarbeitung von Dokumenten

Im folgenden Abschnitt zeigen wir Schritt für Schritt, wie Sie eine Anbindung mit Synesty erstellen.

In unserem Beispiel UseCase sollen Dokumente, welche personenbezogene Daten beinhalten, die das normalerweise nicht sollten, erkannt werden. Daraufhin soll ein Alert in Form einer E-Mail an eine bestimmte Person gesendet werden, um auf das Dokument und Ihre Inhalte aufmerksam zu machen.

OpenText Developer Backend

Für die Nutzung von Magellan Risk Guard muss zunächst ein OpenText Developer Testaccount angelegt werden. In dessen Backend werden eine neuer Tenant und eine neue App erstellt, mit deren API-Keys später Anfragen an die Magellan Risk Guard REST API durchgeführt werden können.

Eine detaillierte Anleitung dazu finden Sie in unserer Dokumentation.

API-Zugang einrichten

Unter Meine Verbindung muss ein neuer OpenText - Risk Guard Account angelegt werden, um die Verbindung mit der OpenText API herzustellen.

Eine detaillierte Anleitung dazu finden Sie in unserer Dokumentation.

Kontentanalyse über die Risk Guard API

Um ein Dokument vom Risk Guard auf Risiken prüfen zu lassen, erstellen wir einen Flow.

Der Flow besteht zunächst aus den Steps URLDownload, OpenText-RiskGuard-Check-Documents, JSONReaderVisual und Mapper.

Mit dem URLDownload (1) wird ein Beispieldokument heruntergeladen.

Der Step OpenText-RiskGuard-Check-Documents (2) lädt dann die Datei über die Risk Guards API hoch und liefert uns die Antwort derer.

Magellan Risk Guard - Risikobewertung von Dokumenten mit AI Picture3

Magellan Risk Guard - Risikobewertung von Dokumenten mit AI Bild4

Mit einem Klick auf die Schaltfläche Vorschau wird uns ein Spreadsheet der Antwort angezeigt, aus dem hervorgeht, welche Kategorien von Datensätzen gefunden wurden.

In unserem Fall hat Magellan Risk Guard Finanz- und Steuerinformationen in der Kategorie Personenbezogene Informationen gefunden.

Magellan Risk Guard - Risikobewertung von Dokumenten mit AI Picture5

Magellan Risk Guard - Risikobewertung von Dokumenten mit AI Picture6

Die Spalte details enthält einen JSON-String, in dem jeder gefundene Datensatz aufgelistet ist:

Magellan Risk Guard - Risikobewertung von Dokumenten mit AI Picture7

Nun parsen wir die details-Spalte mit dem JSONReaderVisual Step (3).

Magellan Risk Guard - Risikobewertung von Dokumenten mit AI Picture8

Das Ergebnis ist ein Spreadsheet der in dem Dokument gefundenen:

  • Risikokategorien wie Gewalt, Alkohol, Waffen, Pornografie und mehr
  • Personal Identifiable Information (PII) wie Name, Kreditkartennummern oder Versicherungsnummern
  • Sensible persönliche Daten (SPII) wie Leistungsdaten, Finanz-/Steuerdaten oder politische Meinungen

Mit dem Step Mapper kann das Spreadsheet nach eigenen Wünschen bearbeitet werden.

Um die Übersicht zu verbessern, können die Spaltenüberschriften verkürzt/vereinfacht werden:

Magellan Risk Guard - Risikobewertung von Dokumenten mit AI Picture9

Magellan Risk Guard - Risikobewertung von Dokumenten mit AI Picture10

Mit einem Mappingset können Sie die CartridgeIDs (Entitätstyp des Datensatzes) lesbar machen.

Magellan Risk Guard - Risikobewertung von Dokumenten mit AI Bild11

Die wichtigsten Spalten und deren Bedeutung:

  • ConfidenceScore = Wie sicher sich Risk Guard ist, den Datensatz den richtigen Entitätstypen zugeordnet zu haben.
  • RelevancyScore = Wie wichtig die Entität oder Klassifizierung für eine Datei ist, z. B.: Wenn eine "Telefonnummer" dreimal in einem Dokument gefunden wurde, ist sie relevanter als eine Nummer, die nur einmal gefunden wurde.
  • Frequency = Wie viele Vorkommen eines einzelnen Datensatzes wurden gefunden?

Spalten in denen die Werte der Datensätze ausgegeben werden:

  • Subterm.value = Wert des extrahierten Datensatzes

    • In dieser Spalte wurde während unserer Tests für jeden Datensatz ein Wert ausgegeben.
  • nfinderNormalized = Wert des extrahierten Datensatzes

    • In dieser Spalte wurden während unserer Tests für die meisten Datensätze ein Wert ausgegeben, in einigen Zellen fehlten allerdings Werte.
  • ClientNormalized = Wert des extrahierten Datensatzes

    • In dieser Spalte wurden nur die Werte der Social Security Numbers ausgegeben. Die restlichen Zellen blieben leer.

In den restlichen Spalten werden nur sporadisch Werte ausgegeben:

  • MainTermValue = Wert des extrahierten Datensatzes
  • Subterm.value_1 = Wert des extrahierten Datensatzes
  • Subterm.value_2 = Wert des extrahierten Datensatzes

Übersicht über das Spreadsheet:

Magellan Risk Guard - Risk assessment of documents with AI Picture12

Was können wir mit den gewonnenen Daten machen?

Die Rohdaten der API können nun ein wenig weiterverarbeitet werden. Dazu werden wir das Tabellenblatt so bearbeiten (Spalten entfernen, nach CartridgeIDs gruppieren), dass wir sehen können, wie oft welche Datensätze in unserem Dokument gefunden wurden:

Magellan Risk Guard - Risikobewertung von Dokumenten mit AI Picture13

Wir erweitern nun den Flow, um eine Alarm-E-Mail zu senden, wenn personenbezogene Daten in einem Dokument gefunden werden.

Wenn keine personenbezogenen Daten gefunden wurden, kann der Flow an dieser Stelle gestoppt werden. Sie können dies mit dem Step StopFlowIf tun.

Magellan Risk Guard - Risikobewertung von Dokumenten mit AI Picture14

Andernfalls sollte er fortgesetzt werden.

Nun werden die relevanten Datensätze mit mehreren Filter-Steps kategorisiert:

Magellan Risk Guard - Risikobewertung von Dokumenten mit AI Picture15

Filter 1: Filter - Persönlich identifizierbare Informationen

Filterbedingung:

Magellan Risk Guard - Risikobewertung von Dokumenten mit AI Picture16

(Für Datensätze, die nur in Kombination mit anderen als personenbezogen gelten, können hier auch Bedingungen mit UND erstellt werden).

Filter 2: Filter - Persönlich identifizierbare Finanzinformationen

Filterbedingung:

Magellan Risk Guard - Risikobewertung von Dokumenten mit AI Picture17

Filter 3: Filter - Zugangsdaten

Magellan Risk Guard - Risikobewertung von Dokumenten mit AI Picture18

Nach der Filterung kann nun die Alarm-E-Mail erstellt und versendet werden. Dazu verwenden wir den Step EmailSend.

Wir wählen einen Empfänger aus und geben den Betreff ein:

Magellan Risk Guard - Risikobewertung von Dokumenten mit AI Picture19

Im Feld Nachricht schreiben wir unsere Nachricht und listen die gefundenen Datensätze mit ihrer Häufigkeit nach unseren Kategorien auf. Die Auflistung wird mit Freemarker-Skripting erstellt und enthält die Ergebnisse der vorangegangenen Filter-Steps.

Magellan Risk Guard - Risikobewertung von Dokumenten mit AI Picture20

Ergebnis

So sieht das ganze dann aus wenn wir auf Vorschau anzeigen klicken:

Magellan Risk Guard - Dokumenten Risikobewertung mit AI Bild21

...und so sieht dann nach der Flowausführung die E-Mail aus:

Magellan Risk Guard - Dokumenten Risikobewertung mit AI Bild22

Fazit

Durch die stetig wachsende Menge von Daten und Inhalten, steigen die Risiken für die Unternehmen. Eine manuelle Bewertung von Content ist aufgrund der Datenmenge zeitaufwendig und anfällig für Fehleinschätzungen durch menschliche Fehler. Durch geeignete Software Tools kann man diese Risiken erkennen und reagieren.

Mit unserem Testbeispiel haben wir gezeigt, wie man die API von OpenText Magellan Risk Guard in kurzer Zeit anbinden kann, um damit eigene Inhalte automatisiert zu analysieren.

Falls Sie das ganze jetzt einmal selbst testen möchten, schauen Sie sich unsere Flow-Vorlage dazu an.

Mehr über die Möglichkeiten der Software erfahren Sie in diesem Video:

Das Video wird bei Klick von Youtube geladen und abgespielt. Dabei stellt Ihr Browser eine Verbindung zu den Youtube-Servern her. Es gelten die Datenschutzhinweise von Google / Youtube

Sprechen Sie uns gern an, wenn Sie weitere Fragen dazu haben.

Weitere Informationen

Unser Whitepaper für Macher: No Code Integration & Automatisierung

Verwandte Beiträge

#ai#tutorial#OpenText-Risk-Guard

Aktualisiert am June 14, 2023
Chatten Sie mit uns