Datenschutz kann teuer sein

Montag, 23. Juli 2012, 11:22 Uhr von Christian

Welche Option könnte ein Unternehmen seinen Nutzern anbieten, um den Verkauf ihrer persönlichen Daten zu verhindern? Ganz klar: Die Nutzer selbst dafür zahlen lassen. Hat definitiv Vorbildcharakter.

Geschrieben in: kuriose Computerwelt, www | Schlagwörter: , ,
Keine Kommentare »

unerwünschte Metadaten aus durch pdfTeX generierter PDF-Datei entfernen

Dienstag, 22. Februar 2011, 03:10 Uhr von Christian

Ich wurde zufällig darauf aufmerksam, dass, wenn man in ein mit LaTeX erstelltes Dokument bereits existierende PDF-Dateien (die z. B. Grafiken enthalten) einbindet und dieses LaTeX-Dokument mithilfe von pdfTeX (das auch Bestandteil von MiKTeX ist) als PDF-Datei ausgegeben wird, in dem Resultat die vollständigen Pfadangaben zu den eingebundenen PDF-Dateien enthalten sind. Das kann dann folgendermaßen aussehen:

/PTEX.FileName (A:/Masterarbeit/bilder/diagramm.pdf)

Im Rahmen der Weitergabe oder gar Veröffentlichung wird sicherlich nicht jeder wollen, dass das Dokument solche Informationen preisgibt.

Durch einen Patch (siehe auch Diskussion in der pdfTeX-Mailingliste) soll sich dieses Verhalten ab Version 1.50 von pdfTeX mittels \pdfsuppressptexinfo steuern lassen. Da jedoch in der momentan aktuellen Version 2.9 von MiKTeX noch eine 1.40er-Version enthalten ist, brauchen Ungeduldige eine andere Lösung. Nach etwas Recherche fand ich pdftk, mit dem sich PDF-Dateien zur weiteren Verarbeitung zumindest de- und komprimieren lassen. Der Vorgang gestaltet sich folgendermaßen:

  1. PDF-Datei dekomprimieren
  2. PTEX-Attribute entfernen
  3. PDF-Datei komprimieren

Ich nutze dafür also pdftk und PHP in diesen drei Schritten, um die PTEX-Attribute sauber mithilfe eines regulären Ausdrucks zu entfernen:

pdftk originaldatei.pdf output uncompressed.pdf uncompress
php -n -r "file_put_contents('cleaned.pdf', preg_replace('|^/PTEX.*\n|imU', '',
		file_get_contents('uncompressed.pdf')));"
pdftk cleaned.pdf output zieldatei.pdf compress

(Der Aufruf von PHP muss dabei in einer Zeile erfolgen.)

Die Datei „zieldatei.pdf“ ist die nun bereinigte Fassung des Dokuments. Die zwischendurch entstandenen Dateien „uncompressed.pdf“ und „cleaned.pdf“ sind irrelevant, sofern man die einzelnen Schritte nicht nachvollziehen bzw. kontrollieren will.

Geschrieben in: LaTeX | Schlagwörter: , ,
Keine Kommentare »