Projektumsetzung

Die verwendeten Software und die eingesetzen Techniken werden hier kurz beschrieben. Für weitere Fragen, falls sie ein ähnliches Projekt umsetzen möchten, stehe ich gerne zu Verfügung.

Scanner

Jeder Scanner kann verwendet werden. Ich empfehle, die Bilder mit 300 dpi einzuscannen, damit die OCR-Software möglichst gute Ergebnisse liefert. Bilder nachbearbeiten

Weil immer eine Doppelseite gescannt wurde, habe ich in der Nachbarbeitung die Seiten auf einzelne Bilder verteilt und nichtbedruckte Bereiche weggeschnitten, um auch ein wenig Speicherplatz zu sparen.

Texterkennung

Ursprünglich eine OCR-Software gekauft, war sie nicht in der Lage, Fraktur zu erkennen. Google bietet eine OCR-Software an, für die es, dank eines Pluginmechanismus auch Erweiterungen gibt, so auch für Fraktur – leider zu spät entdeckt. Text-Format

Die Texte werden im rst-Format gespeichert, um sie mit dem Programm »Sphinx«, in ein HTML-Format transformieren zu können. Die Software erstellt eine für die Volltextsuche geeigneten Index.

Über das Einfügen von Index-Einträgen kann ein eignenes Stichwortverzeichins aufgebaut werden. Ich mache es in dem Projekt an Hand von Substantiven, die ich nach dem erstellen der HTML-Seite, mit einem Python-Script extrahiere und dann dem Text hinzufüge. Im Quelltext kann die endgültige Struktur betrachtet werden.

Website

Die fertige Seite liegt als statisches HTML vor und kann von jedem Webserver ausgeliefert werden.

Projektverwaltung

Weil die Sphinx-Software, wie auch die Hilfs-Skripte in Python geschrieben sind, wird das in der Python-Welt übliche Verfahren einer »Virtuellen Umgebung« verwendet.

Datensicherung

Alle Quelltexte werden in einer Versionsverwaltung verwaltet. Ich verwende dazu das Programm „Mercurial“. Weitere Optionen

Das rst-Format und die Software »Sphinx« erlauben auch die Transformation in ein eBook-Format oder den export in eine PDF-Datei.