Digitalisierung Archive

e-rara.ch macht alte Drucke aus Schweizer Bibliotheken digital zugänglich

3. Juli 2010 von The Open Source Guy

Zürcher Bibel, übersetzt von Ulrich Zwingli, gedruckt von Christoph Froschauer (Titelseite)

Gedruckte Bücher gibt es seit dem 15. Jahrhundert, und die Werke der vergangenen Jahrhunderte wären aus Sicht des Urheberrechts längst frei nutzbar. Weil es sich aber oft um seltene und empfindliche Objekte handelt, sind sie in der Praxis nur schwer zugänglich. Retrodigitalisierungsprojekte, welche inzwischen in vielen Bibliotheken laufen, stellen die wertvollen Stücke als digitale Faksimiles ins Internet und erschliessen sie so für ein breites Publikum.

Eines dieser Projekte ist e-rara.ch, welches sich auf alte Drucke aus den Beständen von Schweizer Bibliotheken konzentriert. Der Schwerpunkt liegt auf Schweizer Drucken des 16. Jahrhunderts mit unterschiedlichsten Inhalten (derzeit knapp 900 Titel), hinzu kommen Fachbücher aus den Bereichen Astronomie, Architektur und Städtebau sowie Mathematik und Physik (derzeit gut 450 Titel). Ein Teil der Werke ist in lateinischer Sprache verfasst, es finden sich aber genügend deutsche, englische, französische oder italienische Titel, die auch für Nicht-Lateiner verständlich sind.

Zürcher Bibel (Miniatur-Ansicht)

Sowohl die Suche nach Titeln innerhalb der ganzen Sammlung als auch die Navigation innerhalb eines einzelnen Titels scheint mir gut gelöst. Die Auflösung der Scans ist hoch genug, dass man auch Details problemlos erkennen kann – in der Zoom-Ansicht kann man etwa die von Christoph Froschauer gedruckte Zwingli-Bibel in gut 5facher Vergrösserung betrachten.

Zürcher Bibel (Zoom-Ansicht)

Erfreulicherweise gibt es aber nicht nur dieses gut gemacht Web-Interface, sondern auch die Möglichkeit, einen Titel komplett als PDF-Dokument herunterzuladen. Mit einem geeigneten PDF-Reader kann man dann beispielsweise Notizen anbringen, was für eine wissenschaftliche Auseinandersetzung mit einer historischen Quelle meist unerlässlich ist. Auch zur Lektüre auf einem iPad eignet sich die PDF-Version, wobei in diesem Fall eine (kostenpflichtige) App wie iAnnotate PDF oder GoodReader zu empfehlen ist.

Zürcher Bibel (PDF-Version auf iPad mit iAnnotate PDF)

Microsoft stellt Live Search Books ein

24. Mai 2008 von The Open Source Guy

Eines der prominenteren Digitalisierungsprojekte wird eingestellt: Im Live Search Blog hat Microsoft das Ende von Live Search Books angekündigt. Was bleibt sind 750’000 digitalisierte Bücher und 80 Millionen digitalisierte Zeitschriftenartikel, die über die normale Live Search weiterhin gefunden werden können.

Microsoft sieht die Zukunft der Digitalisierung darin, dass Bibliotheken und Verlage diese selbst übernehmen und Suchmaschinen wie Live Search anschliessend nur noch die bereits digitalisierten Werke indexieren. Wenn man den Text genau liest, dann ist die Entscheidung letztlich wirtschaftlich begründet: Microsoft scheint in Live Search Books kein echtes Businessmodell zu sehen, und angesichts des geringen Marktanteils von Live Search hat man wohl andere Sorgen als den Bibliotheken und Verlagen unter die Arme zu greifen.

Wer in der Vergangenheit Live Search Books genutzt hat, mag diesen Schritt bedauern. Andererseits gibt es nach wie vor genügend Digitalisierungsprojekte (vgl. Open Content Alliance: Alternative zur Google Buchsuche), und im Zweifelsfall sind mir Initiativen der öffentlichen Hand sympathischer als solche von privatwirtschaftlichen Unternehmen, welche in der Regel gewisse exklusiven Rechte an den digitalisierten Werken beanspruchen.

Werk von Charles Darwin komplett digitalisiert

20. April 2008 von The Open Source Guy

Die University of Cambridge hat die gesammelten Werke von Charles Darwin online zugänglich gemacht. Dies umfasst sowohl die gedruckten Publikationen als auch seine Manuskripte und Tagebücher.

In der Regel stehen sowohl durchsuchbare Texte als auch Faksimile-Ansichten zur Verfügung. Bei gleichzeitiger Darstellung laufen die beiden Ansichten synchron, was trotz der einigermassen lesbaren Handschrift Darwins eine wertvolle Unterstützung darstellt. Technisch und optisch ist die Website einfach, aber funktional; sie kommt ohne Flash oder andere Technologien aus, welche beim Web-Browser ein Plug-In voraussetzen würde.

Djvu: Offener Standard für digitalisierte Dokumente

14. März 200814. März 2008 von The Open Source Guy

Bei der Digitalisierung von gedruckten Dokumenten (sog. Redigitalisierung) stellt sich unter anderem die Frage nach dem geeigneten Dateiformat. Einerseits sollen die Dokumente 1:1 und in möglichst hoher Auflösung wiedergegeben werden, was zwangsläufig auf Bitmap-Grafiken hinausläuft. Andererseits sollen Texte per Texterkennung (OCR) aus den Scans extrahiert und als durchsuchbarer Text im Dokument gespeichert werden. Zusätzlich sind kompakte Dateien gefordert, die kostengünstig archiviert und effizient über das Internet ausgeliefert werden können.

Reine Grafikformate (z.B. JPEG, GIF, PNG oder TIFF) können Texte nicht als solche behandeln und kommen deshalb nicht in Betracht. Mit dem Portable Document Format (PDF) von Adobe steht zwar ein Dateiformat zur Verfügung, das sowohl eine originalgetreue grafische Wiedergabe als auch durchsuchbare Texte bietet. Auch wenn es möglich ist, Scans in PDF-Dateien einzubetten so ist dieser Standard aber doch primär für Dateien gedacht, die digital erstellt und direkt in das PDF-Format konvertiert werden.

Ein interessanter Ansatz stellt Djvu (ausgesprochen als «déjà-vu») dar. Es handelt sich um einen offenen Standard, und es gibt dazu passende Programme sowie Browser-Plugins für Windows, Mac OS X sowie Linux (unter Open-Source-Lizenzen oder zumindest kostenlos). Zwei Dinge sind es, die Djvu auszeichnen:

Die gescannten Bitmap-Grafiken werden sehr effizient komprimiert, was im Vergleich zu den klassischen Grafikformaten sehr kleine Dateigrössen ergibt.
Per OCR extrahierte Texte können auf einer separaten Ebene in die Dateien eingebunden werden, wodurch die Scans durchsuchbar werden.

Mir persönlich sind Djvu-Dateien zwar noch selten begegnet. Wer sich das Browser-Plugin von Lizardtech installiert und eines der Beispieldokumente auf der Djvu-Webseite herunterlädt, wird aber rasch feststellen, dass Djvu absolut praxistauglich ist.

Weitere Links zum Thema:

DjVuLibre: Viewers, Plugins, Decoders, Encoders und Utilities mit Open Source Lizenz
Einführung zu Djvu auf Wikipedia

Encyclopaedia Britannica 1911 online

15. Dezember 2007 von The Open Source Guy

«The Sum of Human Knowledge» versprach die vielleicht wichtigste englischsprachige Enzyklopädie, die Encyclopaedia Britannica, 1911 ihren Lesern. Dank ihrer unglaublichen Informationstiefe und den zahlreichen prominenten Autoren war die 11. Ausgabe der Britannica sicher ein Meilenstein in der Lexikografie. Inzwischen sind viele Artikel veraltet, aber gerade historische und biografische Artikel können auch heute noch von Interesse sein, und manche Information ist hier noch greifbar, die in späteren Ausgaben nicht mehr zu finden ist.

Aufgrund seines Erscheinungsdatums ist das Werk inzwischen gemeinfrei (Public Domain). Es ist an verschiedenen Orten im Internet frei zugänglich – allerdings weisen alle diese digitalen Ausgaben Mängel auf:

LoveToKnow Classic Encyclopedia präsentiert die Britannica in Form eines Wikis, das nebst der Volltextsuche einen thematischen Einstieg basierend auf Artikelkategorien anbietet. Die Artikel sind querverlinkt, aber nur als Text verfügbar (d.h. nicht als Faksimilie). Die Qualität dieser (auf den ersten Blick sehr ansprechenden) Ausgabe ist umstritten, da die Aufbereitung offenbar maschinell erfolgte und dadurch diverse Fehler enthält (vgl. Kritik in der Wikipedia).
Die Online Encyclopedia ist ebenfalls eine reine Textausgabe. Sie ist schlicht, aber funktional, und sie verfügt ebenfalls über Querverlinkungen. Leser können auch hier Korrekturen und Ergänzungen anbringen – allerdings nicht direkt wie bei einem Wiki, sondern über ein Formular. Alle Beiträge werden also vor der Freischaltung von einem Redaktor geprüft. Ein systematisches Korrekturlesen der eingescannten Artikel hat aber auch hier nicht stattgefunden, und es gelten ähnliche Vorbehalte wie bei der obigen Version.
Beim Project Gutenberg sind einige wenige Bände der Britannica verfügbar. Die Texte enthalten auch Abbildungen, dafür keine Querverweise, und sie werden als eine einzige, lange HTML-Seite ohne Suchfunktion oder Sprungmarken angeboten – für ein Nachschlagewerk eine wenig geeignete Form. Dafür werden beim Project Gutenberg die gescannten und per OCR konvertierten Texte in der Regel korrekturgelesen.
Wikisource 1911 Encyclopaedia Britannica basiert auf den Texten von Project Gutenberg, ist also ebenso unvollständig, verfügt aber über eine bessere Struktur und die gesamte Wiki-Funktionalität. Der Ansatz ist somit vielversprechend – weil die meisten Bände noch fehlen bleibt der Nutzwert aber gering. Das entsprechende Wikisource-Projektteam könnte also noch Unterstützung gebrauchen.

Lexikon 1888: Meyer’s und Brockhaus‘ Konversations-Lexika digital erschlossen

9. Dezember 2007 von The Open Source Guy

Der Schweizer Mathematiker Peter Hug hat es sich zur Aufgabe gemacht, die wichtigsten Lexika des späten 19. Jahrhunderts im Internet bereitzustellen und optimal zu erschliessen. Dazu gehören insbesondere die 4. Auflage von Meyers Konversations-Lexikon aus den Jahren 1885 bis 1892 sowie die 14. Auflage von Brockhaus‘ Konversationslexikon aus den Jahren 1894 bis 1896. Aufbauend auf dem Digitalisierungsprojekt Retro-Bib von Christian Aschoff hat Hug seine Website Lexikon 1888 geschaffen, die bezüglich Funktionalität Massstäbe setzt. Die Lexika steht als Faksimilie sowie als durchsuchbarer Volltext zur Verfügung, wobei der Volltext durch Querverlinkungen, Kontextinformationen und Quellen angereichert ist. Sogar eine für Handys optimierte Version ist vorhanden.

Universal Digital Library / Million Book Collection: 1.2 Millionen digitale Bücher online

27. November 2007 von The Open Source Guy

Universal Digital Library Advanced Search

Mit der Universal Digital Library gibt es ein weiteres Digitalisierungsprojekt für Bibliotheksbestände, diesmal unter Federführung der Carnegie Mellon University in Pittsburgh, Pennsylvania. Die Partnerinstitutionen stammen aus China, Indien und Ägypten, entsprechend sind primär Dokumente in den Sprachen dieser Länder gescannt worden. Derzeit ist ein Bestand von 1.2 Millionen Büchern online verfügbar. Die Universal Digital Library hat allerdings wesentlich ambitioniertere Ziele: Grundsätzlich sollen möglichst alle der geschätzten 100 Millionen Bücher dieser Welt digitalisiert und kostenlos online verfügbar gemacht werden.

Das Projekt steht derzeit vor zwei Herausforderungen: Erstens bedeutet die Digitalisierung einen enormen Aufwand – derzeit rechnet man damit, pro Jahr eine weitere Million Bücher online anbieten zu können. Zweitens unterliegt der grösste Teil der Bücher dem Copyright, so dass die digitalisierten Werke nur mit Zustimmung der Rechteinhaber kostenlos im Internet bereitgestellt werden dürfen – diese kritische Frage scheint aber noch nicht gelöst zu sein, wie einem Artikel bei heise.de zu entnehmen ist.

Die Universal Digital Library will nicht einfach nur Faksimiles bereitstellen, sondern auch den Volltext der digitalisierten Bücher mit OCR-Software erschliessen und so durchsuchbar machen. Wie gut das Angebot in der Praxis funktioniert ist allerdings schwer zu beurteilen, da die (insgesamt ziemlich schmucklos gehaltene) Website derzeit massiv überlastet ist. Eine weitere Herausforderungen des Projekts dürfte deshalb auch die Bereitstellung von ausreichend Server-Kapazität sein.

Trotz dieser Anfangsschwierigkeiten ist das Konzept, das gesamte geschriebene Wissen dieser Welt frei zugänglich zu machen, ausgesprochen spannend. Wohl nicht zufällig ist auch die Bibliothek von Alexandria in dieses Projekt involviert – deren Vorgängerin in der Antike gilt bekanntlich als Inbegriff einer universellen Bibliothek.

Open Content Alliance: Alternative zur Google Buchsuche

22. Oktober 2007 von The Open Source Guy

Es gibt inzwischen diverse Initiativen, um die Buchbestände dieser Welt zu scannen und anschliessend online durchsuchbar und lesbar zu machen. Die bekannteste – und umstrittenste – ist die Google Buchsuche, die an der Frankfurter Buchmesse 2004 erstmals vorgestellt wurde. Google offeriert Verlagen (Google Print) und Bibliotheken (Google Library) eine kostenlose Digitalisierung ihrer Verlagsprogramme bzw. Bestände. Die digitalisierten Bücher sind anschliessend über die Google Buchsuche im Volltext durchsuchbar und – je nach Copyright-Situation – auch online lesbar.

Konkurrent Microsoft hat mit Live Search Books Ende 2006 ein ähnliches Programm lanciert (vgl. Berichterstattung bei C-Net), und auch Yahoo! und Amazon befassen sich mit der Digitialisierung von Buchbeständen. Die Angebote der Privatwirtschaft sind für Verlage und Bibliotheken attraktiv, da sie meist beschränkte Mittel haben und den arbeitsintensiven Scan-Prozess nicht selbst finanzieren könnten. Den Verlagen eröffnet sich hier sogar ein neues Marketing-Konzept, denn wer über eine Buchsuche ein copyright-geschütztes Buch findet, muss es normalerweise kaufen, um es lesen zu können. Trotzdem werden die Anstrengungen von Google & Co. auch kritisiert, da auf diese Weise privatwirtschaftliche Unternehmen die faktische Kontrolle über riesige Informationsbestände erhalten, zumal sie für ihre Scan-Dienstleistung eine mehr oder weniger ausgeprägte Exklusivität beanspruchen.

Allein durch die Auswahl der Bücher, die digitalisiert (oder eben nicht digitalisiert) werden, beeinflusst Google das Wissen dieser Welt. So stellt etwa die Konzentration auf englischsprachige Bibliotheken eine Selektion dar, die bereits in Europa Bedenken weckt und in anderen Teilen der Welt sicher noch weit kritischer beurteilt wird. Und auch wenn Google mit seinem inoffiziellen Unternehmensmotto «Don’t be evil» entsprechende Bedenken zu zerstreuen versucht: Sowohl bei der Internet-Suche (Stichwort: China) als auch bei Google Earth (Stichwort: Irak-Krieg) hat Google in der Vergangenheit Informationen gefiltert und damit Zensur ausgeübt – es wäre also naiv, Zensur bei der Google Buchsuche grundsätzlich auszuschliessen.

Konkurrenz erwächst Google nicht nur von Microsoft, Yahoo! und Amazon, sondern auch von Behörden und Institutionen, welche das weltweite Schrifttum nicht einfach der Privatwirtschaft überlassen wollen. Bekannt ist etwa die Kritik von Jean-Noël Jeanneney, dem ehemaligen Direktor der Französischen Nationalbibliothek, der in seinem Buch «Googles Herausforderung» die nordamerikanische Vormachtsstellung beklagte und eine europäische Digitalisierungsinitiative forderte. In Frankreich gibt es mit Gallica schon seit einigen Jahren ein entsprechendes Projekt, die EU macht mit The European Library Schritte in die entsprechende Richtung, und auf globaler Ebene ist die geplante Word Digital Library der UNESCO zu erwähnen (vgl. World Digital Library: Die freie interkulturelle Online-Bibliothek). Daneben gibt es kleinere Projekte wie z.B. Zeno.org.(vgl. Zeno.org: Digitale Bibliothek mit gemeinfreien Büchern).

Als weitere Alternative etabliert sich die 2005 vom Internet Archive und dessen Gründer Brewster Kahle ins Leben gerufene Open Content Alliance (OCA). Diese Allianz konnte mit dem Beitritt des Boston Library Consortium und der Smithsonian Institution kürzlich interessante neue Partner vermelden (vgl. Berichterstattung bei Heise). Die OCA konzentriert sich auf Werke, deren Copyright bereits ausgelaufen ist. Sie macht den Bibliotheken keine Auflagen bezüglich der weiteren Nutzung der digitalisierten Bücher, verrechnet ihnen dafür 10 Cent pro gescannte Seite. Verwirrend ist allerdings, dass sowohl Yahoo! als auch Microsoft der Open Content Alliance angehören und zugleich eigene Digitalisierungsprogramme betreiben.

World Digital Library: Die freie interkulturelle Online-Bibliothek

26. Mai 201819. Oktober 2007 von The Open Source Guy

Im Moment ist es erst ein Projekt, hervorgegangen aus einer Idee, die James H. Billington von der Library of Congress im Juni 2005 der nationalen UNESCO-Kommission vortrug:

«The World Digital Library will make available on the Internet, free of charge and in multilingual format, significant primary materials from cultures around the world, including manuscripts, maps, rare books, musical scores, recordings, films, prints, photographs, architectural drawings, and other significant cultural materials.»

Inzwischen sind nebst der UNESCO und der IFLA diverse namhafte Bibliotheken aus der ganzen Welt an diesem Projekt beteiligt. Erst kürzlich ging die Meldung durch die Medien, die UNESCO und die Library of Congress hätten einen Zusammenarbeitsvertrag betreffend die World Digital Library abgeschlossen. Interessanter scheint mir allerdings der Aspekt, dass dieser Tage im UNESCO-Hauptquartier in Paris ein Prototyp der World Digital Library gezeigt wurde – die aber offenbar der Öffentlichkeit vorenthalten blieb (abgesehen von einem vielversprechenden Video).

Watch this video on YouTube

Datenschutz-Hinweis: Wenn Sie dieses Video abspielen, können Sie von YouTube getrackt werden.

Zeno.org: Digitale Bibliothek mit gemeinfreien Büchern

3. November 200730. September 2007 von The Open Source Guy

Zeno.org ist eine Online-Bibliothek mit lexikalischen, wissenschaftlichen und literarischen Texten in deutscher Sprache, die im Volltext und in vielen Fällen auch als Faksimile vorliegen. Dass Zeno.org die Texte frei verfügbar machen kann liegt daran, das ihr Copyright ausgelaufen ist und sie deshalb als gemeinfrei (Public Domain) gelten. Daraus folgt, dass man hier keine aktuellen Werke findet, sondern solche aus den vorangehenden Jahrhunderten. Die Lexika von Brockhaus, Herder, Pierer & Co. etwa stammen aus dem 19. oder frühen 20. Jahrhundert, die Autoren im Fachgebiet Geschichtswissenschaft heissen beispielweise Jacob Burckhardt, Johann Gustav Droysen oder Theodor Mommsen. Das Bedienungskonzept ist einfach, aber zweckmässig.

Persönlich frage ich mich einfach, ob es Sinn macht, eine weitere universelle digitale Bibliothek zu schaffen und damit in Konkurrenz zu Wikibooks bzw. Wikisource, Projekt Gutenberg oder Google Buchsuche zu treten. Es ist zwar spannend, in den verschiedenen alten Werken zu schmökern, insbesondere wenn diese auch als Faksimilie eingescannt sind. Für eine Bibliothek ist der Bestand im einzelnen Fachgebiet aber sehr dünn.

Die Nutzungsbedingungen stellen klar, dass man zwar einzelne Texte von Zeno.org kopieren und weiterverwenden darf, dass aber für die Gesamtheit des Angebots ein Urheberrecht gilt. Zudem wird im Sinne einer Creative-Commons-Lizenz eine Herkunftsangabe verlangt. Ob dies bei Texten, die gemeinfrei sind, rechtlich haltbar ist, kann ich nicht beurteilen, scheint mir aber nicht ganz schlüssig. Zudem wirkt es wenig konsequent, dass Zeno.org einerseits ein Urheberrecht auf der Datenbank als Ganzes beansprucht, andererseits aber die komplette deutsche Wikipedia übernimmt.

Spannend erscheint mir dagegen, dass auch hier das Prinzip der Buchpatenschaft existiert (vgl. DigiWunschbuch: Digitalisierung von alten Drucken über Buchpatenschaften). Wer ein urheberrechtsfreies Werk in der Bibliothek von Zeno.org vermisst, kann dessen Digitalisierung finanzieren und wird damit Buchpate.