Die Volltextdigitalisierung ist ein Prozess zur Erfassung von Texten in gescannten Dokumenten. Scanner nehmen grundsätzlich nur optische Merkmale wahr und stellen diese in Rastergrafiken dar. Um die gescannten Texte in einem Dokument für Computer lesbar zu machen, müssen die einzelnen Zeichen in einem gesonderten Verfahren identifiziert werden.
Die optische Zeichenerkennung (OCR für englisch: Optical Character Recognition) erfasst dazu einzelne Objekte in einem Dokument und vergleicht diese anhand einer vorgegebenen Schablone mit einem gängigen Zeichen und ordnet das Objekt einem Zeichen zu. Probleme treten dabei bei verschmutzten oder anderweitig schwer lesbaren Dokumenten auf, was dazu führt, dass die Objekte einem falschen Zeichen zugeordnet werden oder die optische Zeichenerkennung kein Ergebnis liefert.
Das Goobi Projekt hält eine Software zur Modellierung, Steuerung und Überwachung von Digitalisierungsprojekten
(http://www.carpet-project.net/katalog/detail/carpet/goobi-community-edition/) bereit. Die Goobi Community wird im offiziele Goobi Forum
(http://www.carpet-project.net/forum/#cat60) auf CARPET von den Goobi Entwicklern und Nutzern unterstützt.