Projektumsetzung¶
Die verwendeten Software und die eingesetzen Techniken werden hier kurz beschrieben. Für weitere Fragen, falls sie ein ähnliches Projekt umsetzen möchten, stehe ich gerne zu Verfügung.
Scanner¶
Jeder Scanner kann verwendet werden. Ich empfehle, die Bilder mit 300 dpi einzuscannen, damit die OCR-Software möglichst gute Ergebnisse liefert. Bilder nachbearbeiten
Weil immer eine Doppelseite gescannt wurde, habe ich in der Nachbarbeitung die Seiten auf einzelne Bilder verteilt und nichtbedruckte Bereiche weggeschnitten, um auch ein wenig Speicherplatz zu sparen.
Texterkennung¶
Ursprünglich eine OCR-Software gekauft, war sie nicht in der Lage, Fraktur zu erkennen. Google bietet eine OCR-Software an, für die es, dank eines Pluginmechanismus auch Erweiterungen gibt, so auch für Fraktur – leider zu spät entdeckt. Text-Format
Die Texte werden im rst-Format gespeichert, um sie mit dem Programm »Sphinx«, in ein HTML-Format transformieren zu können. Die Software erstellt eine für die Volltextsuche geeigneten Index.
Über das Einfügen von Index-Einträgen kann ein eignenes Stichwortverzeichins aufgebaut werden. Ich mache es in dem Projekt an Hand von Substantiven, die ich nach dem erstellen der HTML-Seite, mit einem Python-Script extrahiere und dann dem Text hinzufüge. Im Quelltext kann die endgültige Struktur betrachtet werden.
Website¶
Die fertige Seite liegt als statisches HTML vor und kann von jedem Webserver ausgeliefert werden.
Projektverwaltung¶
Weil die Sphinx-Software, wie auch die Hilfs-Skripte in Python geschrieben sind, wird das in der Python-Welt übliche Verfahren einer »Virtuellen Umgebung« verwendet.
Datensicherung¶
Alle Quelltexte werden in einer Versionsverwaltung verwaltet. Ich verwende dazu das Programm „Mercurial“. Weitere Optionen
Das rst-Format und die Software »Sphinx« erlauben auch die Transformation in ein eBook-Format oder den export in eine PDF-Datei.