unerwünschte Metadaten aus durch pdfTeX generierter PDF-Datei entfernen
Dienstag, 22. Februar 2011, 03:10 Uhr von Christian
Ich wurde zufällig darauf aufmerksam, dass, wenn man in ein mit LaTeX erstelltes Dokument bereits existierende PDF-Dateien (die z. B. Grafiken enthalten) einbindet und dieses LaTeX-Dokument mithilfe von pdfTeX (das auch Bestandteil von MiKTeX ist) als PDF-Datei ausgegeben wird, in dem Resultat die vollständigen Pfadangaben zu den eingebundenen PDF-Dateien enthalten sind. Das kann dann folgendermaßen aussehen:
/PTEX.FileName (A:/Masterarbeit/bilder/diagramm.pdf)
Im Rahmen der Weitergabe oder gar Veröffentlichung wird sicherlich nicht jeder wollen, dass das Dokument solche Informationen preisgibt.
Durch einen Patch (siehe auch Diskussion in der pdfTeX-Mailingliste) soll sich dieses Verhalten ab Version 1.50 von pdfTeX mittels \pdfsuppressptexinfo
steuern lassen. Da jedoch in der momentan aktuellen Version 2.9 von MiKTeX noch eine 1.40er-Version enthalten ist, brauchen Ungeduldige eine andere Lösung. Nach etwas Recherche fand ich pdftk, mit dem sich PDF-Dateien zur weiteren Verarbeitung zumindest de- und komprimieren lassen. Der Vorgang gestaltet sich folgendermaßen:
- PDF-Datei dekomprimieren
- PTEX-Attribute entfernen
- PDF-Datei komprimieren
Ich nutze dafür also pdftk und PHP in diesen drei Schritten, um die PTEX-Attribute sauber mithilfe eines regulären Ausdrucks zu entfernen:
pdftk originaldatei.pdf output uncompressed.pdf uncompress php -n -r "file_put_contents('cleaned.pdf', preg_replace('|^/PTEX.*\n|imU', '', file_get_contents('uncompressed.pdf')));" pdftk cleaned.pdf output zieldatei.pdf compress
(Der Aufruf von PHP muss dabei in einer Zeile erfolgen.)
Die Datei „zieldatei.pdf“ ist die nun bereinigte Fassung des Dokuments. Die zwischendurch entstandenen Dateien „uncompressed.pdf“ und „cleaned.pdf“ sind irrelevant, sofern man die einzelnen Schritte nicht nachvollziehen bzw. kontrollieren will.
Geschrieben in: LaTeX | Schlagwörter: Datenschutz, LaTeX, PDF
Keine Kommentare »