|

|
Jahrelange Entwicklungsarbeit hat mit docWorks eine Technologie entstehen lassen, die Dokumente im übertragenen Sinne sieht, erkennt, liest, versteht und die Konvertierungsqualität im gesamten Prozess überwacht. Wir möchten Ihnen hiermit einen etwas detailierteren Einblick in die Arbeitsschritte eines docWorks-Prozesses geben.
----------------
Das Scannen der Dokumente wird von speziellen Hochleistungsscannern durchgeführt, die vollautomatisch die einzelnen Seiten abfotografieren. Zur weiteren Verarbeitung müssen diese digitalen Kopien in das Programm docWorks „überführt“ werden. Dies passiert mit dem Modul scanClient, welches dafür sorgt, dass die Informationsübertragung reibungslos und ohne Informationsverlust stattfindet.
Im Anschluss erfolgt eine automatisierte digitale Bildbearbeitung, die - falls nötig und gewünscht - das Bild entzerrt und gerade rückt, Schmutz entfernt, Kontrast und Schärfe anpasst, Doppelseiten splittet und Farbkorrekturen durchführt.
In der folgenden Layout-Analyse identifiziert docWorks automatisch die gescannten Inhalte, d.h. es erkennt Überschriften, Untertitel, Fließtext, Tabellen und Illustrationen ebenso wie handschriftliche Bemerkungen, Fußnoten und Seitenzahlen.
Die von der Layout-Analyse bestimmten Textabschnitte werden im nächsten Schritt mittels einer intelligenten Texterkennung in einzelne Wörter umgewandelt und automatisch gegen integrierte Wörterbücher der entsprechenden Sprachen geprüft. docWorks erkennt eine große Bandbreite von aktuellen und historischen Schriften, selbst wenn diese gemsicht vorkommen sollten.
Auf Basis der vorangegangen Prozesse kann docWorks nun die über alles stehende Struktur erfassen. Zum Beispiel identifiziert docWorks bei Büchern die einzelnen Kapitel, Vorspann und Nachspann - bei Zeitungen erkennt es, welcher Text zu welchem Foto und zu welcher Überschrift gehört und speichert diese dann als einzelnen Artikel. Die Text- und die Strukturerkennung sind die zentralen Bausteine von docWorks. Durch die Texterkennung wird es möglich ganze Bücher und Bibliotheken gleich in welcher Sprache gezielt nach einzelnen Begriffen zu durchsuchen. Die Strukturerkennung wiederum gewährleistet, dass die Treffer nach Relevanz sortiert und übersichtlich dargestellt werden können. Denn nur wenn Suchbegriffe innerhalb des gleichen Artikels oder Beitrags gefunden werden, handelt es sich ja auch wirklich um einen relevanten Treffer. Ansonsten würde man sich durch unzählige Zeitungsseiten klicken müssen, in denen die Suchbegriffe zwar vorkommen, aber ohne dass sie zueinander in Verbindung stehen. Die Strukturanalyse vereinfacht also maßgeblich die Suche. Da docWorks durch die Identifizierung einzelner Artikel diese auch (farblich) hervorheben oder freistellen kann, muss sich der Nutzer nicht erst auf der Buch- oder Zeitungsseite orientieren und kann dadurch schneller mit den Ergebnissen arbeiten. Die Informationen zu Layout und Struktur des Dokumentes werden als zusätzliche Metadaten gespeichert. Die sogenannten ALTO-Dateien, die pro Seite abgespeichert werden, beinhalten Informationen zu Layout und Text. Zusätzlich gibt es für jede Publikation eine einzelne METS-Datei mit den Informationen zur Gesamtstruktur. Eine digitale Publikation besteht also immer aus dem ursprünglichen Scan (abgespeichert als Bilddatei, z.B. ein hochauflösendes Tiff für die Langzeitsicherung und ein kleineres Jpeg für die Web-Nutzung) und den relevanten Metadaten. Die METS/ALTO-Dateien sind „offen“, d.h. sie können in jedes andere Format konvertiert werden und auch unabhängig von docWorks genutzt werden. Außerdem ist es durch den offenen Standard möglich, die Datenbanken verschiedener Bibliotheken, Sammlungen und Archive zu vernetzen und somit weltweit nutzbar zu machen.
Das fertige digitale „Produkt“ liegt am Ende der docWorks-Kette auf dem Datei-Server bereit und kann über die Suchmaske, z. B. Veridian, gefunden und eingesehen werden. Um bestmögliche Ergebnisse zu gewährleisten, kann in einzelnen Abschnitten des Prozesses eine Prüfung der automatisch generierten Resultate stattfinden. Zur Qualitätssicherung stehen Werkzeuge zur Verfügung, die eine Überprüfung und die gegebenenfalls notwendige Korrektur jederzeit schnell und unkompliziert gewährleisten.
|