Djvu: Offener Standard für digitalisierte Dokumente

image

Bei der Digitalisierung von gedruckten Dokumenten (sog. Redigitalisierung) stellt sich unter anderem die Frage nach dem geeigneten Dateiformat. Einerseits sollen die Dokumente 1:1 und in möglichst hoher Auflösung wiedergegeben werden, was zwangsläufig auf Bitmap-Grafiken hinausläuft. Andererseits sollen Texte per Texterkennung (OCR) aus den Scans extrahiert und als durchsuchbarer Text im Dokument gespeichert werden. Zusätzlich sind kompakte Dateien gefordert, die kostengünstig archiviert und effizient über das Internet ausgeliefert werden können.

Reine Grafikformate (z.B. JPEG, GIF, PNG oder TIFF) können Texte nicht als solche behandeln und kommen deshalb nicht in Betracht. Mit dem Portable Document Format (PDF) von Adobe steht zwar ein Dateiformat zur Verfügung, das sowohl eine originalgetreue grafische Wiedergabe als auch durchsuchbare Texte bietet. Auch wenn es möglich ist, Scans in PDF-Dateien einzubetten so ist dieser Standard aber doch primär für Dateien gedacht, die digital erstellt und direkt in das PDF-Format konvertiert werden.

Ein interessanter Ansatz stellt Djvu (ausgesprochen als „déjà-vu“) dar. Es handelt sich um einen offenen Standard, und es gibt dazu passende Programme sowie Browser-Plugins für Windows, Mac OS X sowie Linux (unter Open-Source-Lizenzen oder zumindest kostenlos). Zwei Dinge sind es, die Djvu auszeichnen:

  • image Die gescannten Bitmap-Grafiken werden sehr effizient komprimiert, was im Vergleich zu den klassischen Grafikformaten sehr kleine Dateigrössen ergibt.
  • Per OCR extrahierte Texte können auf einer separaten Ebene in die Dateien eingebunden werden, wodurch die Scans durchsuchbar werden.

Mir persönlich sind Djvu-Dateien zwar noch selten begegnet. Wer sich das Browser-Plugin von Lizardtech installiert und eines der Beispieldokumente auf der Djvu-Webseite herunterlädt, wird aber rasch feststellen, dass Djvu absolut praxistauglich ist.

Weitere Links zum Thema:

css.php