Der Hauptfilter, mit dem Text aus PDF-Dokumenten extrahiert wird, ist XPDF. Bei der „Treffermarkierung“ und bei „Als Web-Seite anzeigen“ hingegen dient DCSIm als Hauptfilter.
OpenText Document Filters (OTDF) unterstützt die Textextrahierung aus PDF-Dokumenten, PDF Unicode und ASCII-Metadaten für die PDF-Versionen 1.0 bis 1.9. Die Filter extrahieren sämtlichen sichtbaren Text und behalten dessen Kontext bei. Vertikal und diagonal angezeigte Wörter sowie Sonderzeichen werden ebenfalls extrahiert und indiziert. Unsichtbarer Text und Markup-Text wie Notizen und Kommentare werden ebenfalls extrahiert.
Document Filters kann für die Versionen 1.5 bis 1.9 PDF-Dateien laden, die über AES-128-Bit-Verschlüsselung kennwortgeschützt sind, aber über eine Lesen-Berechtigung verfügen. Darüber hinaus sind das Extrahieren von Text sowie „Als Web-Seite anzeigen“ und das Generieren von Miniaturansichten möglich.
|
Hinweis: | |
Im PDF-Format werden Schriftarten und Sprachen anders verarbeitet als in anderen Textformaten. OTDF unterstützen nachweislich Text, der aus verschiedenen Sprachgruppen mit unterschiedlichen Schriftarten extrahiert wurde, darunter:
Wörter, Zeilenumbrüche und Absatzabstände des extrahierten PDF-Texts werden optimiert, um die Lesbarkeit auf Bildschirmen und bei Verwendung als gedruckter Text zu verbessern.