Durchsuchbarkeit konvertierter Papierdokumente garantieren

Das Papierarchiv wird digital

Warum es ratsam ist, sich für eine Migration vom papierbasierten Archiv in eine digitale Version zu entscheiden, berichtet Michael Fuchs, Technology Evangelist bei Abbyy Europe GmbH.

Michael Fuchs, Abbyy

„Klassische papierbasierte Archive wurden vor einigen Jahren noch gescannt um dadurch Kosten für die Lagerung zu senken und um Dokumente an einem Monitor betrachten zu können. Doch digitalisiert bedeutet längst nicht voll durchsuchbar", gibt Michael Fuchs zu bedenken.

IT-DIRECTOR: Herr Fuchs, wie weit verbreitet ist das digitale Archiv in Großunternehmen (ab 1.200 Mitarbeitern)?
M. Fuchs:
Jedes Unternehmen dieser Größenordnung sammelt und archiviert seit mindestens 20 Jahren digitale Daten und Dokumente. In der täglichen Praxis gibt es unterschiedliche Ausprägungen, denn oft geschieht dies auf Abteilungsebene, z.B. für Finanz- und Buchhaltungsdaten oder auch für die Programmierung von computergesteuerten Werkzeugmaschinen. Für Unternehmen aus dem Banken-, Versicherungs- und Service-Umfeld hat ein einheitlicheres Datenmanagement eine sehr viel höhere Priorität, da viele Abteilungen auf die Vertrags und Kundendaten zugreifen müssen, um so einen hohe Servicequalität sicherstellen zu können.

Die neuen technologischen Ansätze aus dem Big-Data-Umfeld werden in den nächsten Jahren sicher weitere Veränderungen in Unternehmen bringen. Sehr viel größere Datenmengen müssen gespeichert und analysiert werden. Der Wandel im Management von Big Content wird neben der klassischen IT auch Auswirkungen auf andere Abteilungen haben – angefangen von der Entwicklung, über das Marketing bis hin zum Vertrieb.

IT-DIRECTOR: Wann sollten sich Unternehmen für eine Migration vom papierbasierten Archiv in die digitale Version entscheiden?
Und wie gelingt dies problemlos?
M. Fuchs:
Klassische papierbasierte Archive wurden vor einigen Jahren noch gescannt um dadurch Kosten für die Lagerung zu senken und um Dokumente an einem Monitor betrachten zu können. Doch digitalisiert bedeutet längst nicht voll durchsuchbar. Einen deutlicheren Mehrwert bieten hier Technologien und Software, die ein voll durchsuchbares digitales Archiv erstellen können. Um auf Knopfdruck Dokumente und Informationen abzurufen, wie es beispielsweise beim eDiscovery oder in der Suche durch Kundendatenbanken notwendig ist, müssen die Scans/Pixel-Bilder in „richtigen“ Text umgewandelt werden. Optische Zeichenerkennung (OCR) ist hierfür die Schlüsselkomponente. Die Qualität der Texterkennung ist sehr wichtig, da sie die Grundlage für das Archiv und die Richtigkeit der Ergebnisse bei einer Suche im Archiv ist. Eine Herausforderung sind gerade alte Dokumente, da diese aufgrund des Alters und der Erstellung über eine Schreibmaschine oft von schlechter Qualität sind. Hier helfen Bildvorverarbeitungstechnologien die das digitalisierte Dokumentenbild für die Texterkennung mit einer noch höheren Erkennungsgenauigkeit optimieren. 

Durch die neuen Ansätze, speziell aus dem Bereich von Big Data bzw. Big Content, werden Archive nicht mehr nur als „Endlager für gescanntes Papier“ oder andere Dokumentenformate wie PDFs gesehen. Mittlerweile werden in den oft unstrukturierten Dokumenten auch „Schätze“ gesehen, die die Unternehmen bergen wollen. Information Mining kann sich z.B. im Bereich F&E lohnen, wenn aus Forschungsberichten oder Beschwerden neue Produktideen und Zusammenhänge destilliert werden können.

Mit Dokumentenklassifizierung, intelligenter Attribuierung, sowie Machine Learning und der Extraktion von Personen, Firmennamen und anderen Fakten, können neue Facetten aus aktuellen und archivierten Dokumenten erschlossen werden. Diese neu gewonnenen Metadaten können direkt in bestehenden Systemen eingebunden werden um diese weiter zu verbessern.

Um ein erfolgreiches Digitalisierungsprojekt umzusetzen, ist eine gründliche Analyse des bestehenden Papierarchives und der darin enthaltenen Dokumente sehr wichtig. Welche Dokumentenklassen kommen vor? Welche Zielformate werden benötigt? Sollen die archivierten Dokumente bestimmten Klassen zugewiesen oder wichtige Daten für IT-Systeme in der Organisation extrahiert werden? Darüber hinaus sollten die Arbeitsabläufe, die Scanner aber auch die Software für OCR, Klassifizierung und Datenextraktion in einem Piloten getestet werden. Nur so lassen sich eine realistische Qualitäts- und Zeitplanung erzielen. Viele der Software Komponenten stehen als Cloud-Lösung oder auch für die Installation auf lokalen Servern zur Verfügung. Zusätzliche Beratung hilft oft Einsteiger-Fehler zu vermeiden.

IT-DIRECTOR: Welche Argumente sprechen aus Ihrer Sicht für die digitale Archivierung. Welche Aspekte sprechen dagegen?
M. Fuchs:

Pro:

  • Verbesserter Zugang zu bestehenden Ressourcen dank vollständiger Durchsuchbarkeit aller archivierten Dokumente – unabhängig von ihrem Ausgangsformat (gescannte und konvertierte Papierdokumente, elektronisch erstellte Dokumente).
  • Neue Technologien zur Klassifizierung und Informations-Extraktion erlauben besseres Data Mining.
  • Digital erschlossene Archive erlauben den Blick in die Vergangenheit – auf Unternehmensebene, aber auch auf Produkt- und Kundenebene.
  • Eine gute Archivierungsstrategie ist sehr wichtig, denn aktuelle Informationen von heute sind schon morgen ein Teil des Archivs.

Contra

  • Informationsmanagement und -erschließung ist eine Investition, die es nicht kostenlos gibt.
  • Reorganisation der Prozesse und Abläufe müssen von der Organisation getragen werden, oftmals sind hierzu Change Management und neue Prozessabläufe inklusive Trainings von Mitarbeitern notwendig.
  • Die Umsetzung und Integration muss für alle Beteiligten einen Mehrwert darstellen.

IT-DIRECTOR: Nutzen Unternehmen Software-Lösungen zur elektronischen Archivierung, müssen eine Reihe gesetzlicher Bestimmungen berücksichtigt werden. Welche Kriterien müssen bezüglich der Rechtskonformität beachtet werden? Welche Daten, Informationen und Dokumentarten müssen wie lange aufbewahrt werden?
M. Fuchs:
Die gesetzlichen Bestimmungen für verschiedene Branchen wie Finanzdaten oder medizinische Dokumentationen müssen auch in einem digitalen Archiv eingehalten werden. Technisch muss sichergestellt werden, dass die Dokumente über einen langen Zeitraum lesbar sind. Hierzu wurde zum Beispiel der internationale Standard für langzeitarchivierte PDFs eingeführt und mit der Umwandlung von Dokumenten in diese PDF/A Formate sind Organisationen auf einem (rechts)sicheren Weg. Gleichzeitig muss aber auch sichergestellt sein, dass diese nicht im Nachhinein verändert werden (können) bzw. eine durchgeführte Manipulation muss als solche erkennbar sein (digitale Signaturen, revisionssichere Archivierung). Die DMS/ECM Hersteller kennen in der Regel die rechtlichen Bestimmungen, da sie diese in den Systemen umgesetzt haben.

IT-DIRECTOR: Welchen Vorteil bieten ECM-Software-Lösungen bei der digitalen Archivierung?
M. Fuchs:
ECM-Lösungen sind bei Unternehmen oft schon vorhanden. Durch die Entwicklungen im Bereich Industrie 4.0, Internet of Things (IoT), Big Data, Data Mining, Textanalyse und intelligente Suche werden sich die etablierten Lösungen anpassen bzw. öffnen. Ein digital erschlossenes Archiv in das bestehende ECM-System zu integrieren wird so selbstverständlich sein, wie E-Mail-Management oder in Zukunft Social-Media-Monitoring. 

IT-DIRECTOR: Inwiefern beeinflussen digitale Dokumente den Workflow im Unternehmen?
M. Fuchs:
Papier ist universell, es kann leicht weitergegeben und mit Informationen versehen werden (bedrucken, ankreuzen) – es ist gut zu lesen. Daher ist Papier in vielen Bereichen immer noch ein sehr wichtiger Informationsträger. Digitale Workflows hingegen sind das Ziel vieler Unternehmen, da diese dann gut vereinheitlicht, gewartet und ausgewertet werden können. Direkte Kosten für die interne und externe Verteilung sowie Lagerung entfallen quasi.   

Je nach Anwendungsschwerpunkt und Fokus, werden auch Papierdokumente in die digitalen Abläufe eingebunden. In vielen Unternehmen und Prozessen werden heute PDFs als „digitales Papier“ eingesetzt. PDFs können – wie Papier – schnell erzeugt und verteilt werden, aber für digitale Prozesse müssen sie oft ebenso behandelt werden wie ein Blatt Papier. Warum? Der Grund hierfür liegt in der Vergangenheit des Formates. PDFs sollen korrekt dargestellt und gedruckt werden. Die Editierbarkeit oder auch das Auslesen des Textes in strukturierter Form war nie vorgesehen. Oft erhalten PDFs auch nur Dokumentenbilder, vor allem wenn ein Scanner das PDF erzeugt hat. Um sicherzugehen, dass Text richtig und strukturiert extrahiert werden kann, muss auch hier eine intelligente Texterkennung zum Einsatz kommen, die erkennt ob der Text direkt extrahiert werden kann.

IT-DIRECTOR: Ein digitales Dokumentenmanagement umfasst wesentlich mehr als das bloße Ablegen von Daten, welche Bereiche sind das?
M. Fuchs:
Das Ablegen und Archivieren der Dokumente ist ein zentraler und wichtiger Punkt eines DMS, aber darüber hinaus ist es auch wichtig, dass Mitarbeiter in Organisationen schnell auf Dokumente, Vorgänge und detaillierte Informationen zugreifen zu können. Hierzu wird gezielt mit Meta-Information, also zusätzlichen Daten über die Dokumente gearbeitet. Metadaten sind auch wichtig, wenn es um die Verteilung und das Durchlaufen der definierten Workflows geht. Auch die unternehmensweiten Zugriffsrechte müssen entsprechend den Vorgaben geregelt werden.

IT-DIRECTOR: Welche Bedeutung haben das In- und Output-Management?
M. Fuchs:
Traditionelle Archive waren ein „Endlager“ für wichtige Informationen und oft eine Einbahnstraße. Durch den Kostenrückgang bei Speichertechnologien und Rechenleistung können moderne ECM/DMS/NoSQL Systeme derart skaliert werden, dass ein System aktuelle und alte Daten und Dokumente aufnehmen kann. Dadurch werden im In- und Output-Management auch neue Anforderungen gestellt. Unstrukturiertes Speichern ist einfach, verursacht aber mittelfristig Chaos und hohe Kosten. Eingehende Dokumente müssen, möglichst automatisch, klassifiziert werden, damit diese an die richtigen Empfänger zur Bearbeitung geleitet und danach kontrolliert abgelegt werden können. Da die Dokumente/Assets im System bleiben, ist es wichtig, die Dokumente eventuell auch in ein zukunftssicheres Format, wie z.B. PDF/A, zu konvertieren. Die gezielte Daten-Extraktion, auch aus der Masse an unstrukturierten Dokumenten wie z.B. Briefen, E-Mails oder Verträgen wird immer wichtiger werden.

IT-DIRECTOR: Welche Herausforderungen stellt die digitale Transformation generell an aktuelle DMS- und ECM-Software-Lösungen?
M. Fuchs:
Zu den technischen Herausforderungen gehören sicher die Skalierbarkeit als auch eine Flexibilisierung der Backend Systeme. Bisher waren relativ starre relationale Datenbanken ausreichend, aber mit dem Einfluss von Big Data werden sich die Hersteller auch im DMS/ECM Umfeld dem Trend zu „mehr und flexibler“ nicht entziehen können. Große Mengen an unstrukturierter, textueller Information benötigen auch neue Ansätze, wichtige Informationen für die Organisationen nutzbar zu machen.

Neue Ansätze zur Klassifizierung und semantisches Verständnis von Texten werden in der nächsten Generation von IT-Systemen verfügbar sein. Wurden „früher“ einige hundert Dokumente täglich neu in ein System importiert, werden es zukünftig vielleicht hunderttausend Elemente sein, da dann auch die E-Mails und Enterprise oder Social Network Kommunikation in einem Backend abgelegt werden. Manuelles Eingreifen wird dann nur noch für das Training der Systeme nötig sein.

IT-DIRECTOR: Geben Sie drei Tipps zur Einführung eines digitalen Archivs und worauf bei der Software-Auswahl geachtet werden muss.
M. Fuchs:

  • Funktional liegen die DMS/Archiv Systeme auf dem Markt oft gleich auf. Die Branchenerfahrung des Herstellers kann dann ein Entscheidungspunkt sein.  
  • Die in den einzelnen Systemen eingesetzten Technologien können sich unterscheiden. Ein zentrales Element für den erfolgreichen Aufbau eines Digitalen Archives ist die eingesetzte OCR-Komponente. Sie sollte gute Konvertierungsergebnisse auch bei „schwierigem“ Material liefern, nur so kann später auch erfolgreiches Information Mining betrieben werden.
  • Der Umgang mit unstrukturierten Informationen wird immer wichtiger, z.B. die intelligente, flexible Klassifizierung und das Erkennen von Entitäten und Zusammenhänge in einem E-Mail. Archivierungssysteme sollten hierfür eine Möglichkeit geben.

 

 

©2020Alle Rechte bei MEDIENHAUS Verlag GmbH

Unsere Website verwendet Cookies, um Ihnen den bestmöglichen Service zu bieten. Durch die weitere Nutzung der Seite stimmen Sie der Verwendung zu. Weitere Infos finden Sie in unserer Datenschutzerklärung.

ok