PDF zu vCard: Best Practices & OCR-Tipps
Lebensläufe, Firmen-Präsentationen oder digitale Mappen: So extrahieren Sie Kontakte sauber aus PDF-Dokumenten.
Oft erhält man Kontaktdaten nicht als gedruckte Karte, sondern digital: Als E-Mail-Anhang, in einer PDF-Präsentation oder als Lebenslauf. Wann lohnt sich der Direkt-Import von PDFs und welche Fallstricke lauern dabei?
1. PDF vs. JPG: Der Qualitäts-Kampf
Intuitiv wandeln viele Nutzer PDFs erst in Screenshots (JPG/PNG) um, um sie zu scannen. Das ist oft kontraproduktiv.
Vorteil PDF (Vektor)
Native PDFs (aus Word/InDesign exportiert) enthalten Text als echte Daten, nicht als Pixel. Unsere Engine kann diesen Text oft direkt auslesen, ohne fehleranfällige OCR. Das Ergebnis ist 100% präzises Copy & Paste.
Nachteil Scan-PDF (Raster)
Ein gescanntes Dokument ist nur ein "Bild im PDF-Mantel". Hier muss wieder die OCR ran. Die Qualität hängt – wie beim Foto – von der Scan-Auflösung (DPI) ab.
2. Workflow: PDF zu Kontakt
- Upload: Wählen Sie im Scanner "Datei hochladen" und picken Sie das PDF.
- Rendering: Da Browser PDFs nicht nativ als Bild verarbeiten können, rendern wir die erste Seite des PDFs intern als hochauflösendes Bild (Canvas).
- Analyse: Dieses Bild wird dann wie ein normales Foto durch die Ki/OCR-Pipeline geschickt.
Problem: Mehrseitige PDFs
Aktuell analysiert der Scanner standardmäßig nur die erste Seite.
Use Case: Sie erhalten eine 20-seitige Firmenpräsentation. Die Kontaktdaten des Sales-Mitarbeiters stehen oft auf der letzten Seite.
Workaround: Öffnen Sie das PDF in Ihrem PDF-Viewer, gehen Sie zur relevanten Seite und machen Sie einen Screenshot. Laden Sie diesen Screenshot hoch. Das fokussiert die KI auch direkt auf den relevanten Bereich und vermeidet, dass sie versucht, Überschriften aus dem Inhaltsverzeichnis als Firmennamen zu interpretieren.
3. Typische OCR-Fallen in Dokumenten
Anders als Visitenkarten (wenig Text, klare Struktur) sind PDFs oft Textwüsten.
- Mehrspaltiges Layout: Die OCR liest oft stur von links nach rechts über Spaltengrenzen hinweg. Aus
Max Mustermann | CEO
wird dann manchmal ein durcheinandergewürfeltes Fragment. - Fußzeilen: Bankverbindungen (IBAN), Handelsregister-Nummern und USt-IDs sehen für einfache Parser oft wie Telefonnummern aus. Unser "Intelligent Parser" filtert diese meistens heraus, aber bei PDFs ist die Fehlerquote höher.
4. Fazit & Empfehlung
Nutzen Sie den PDF-Upload für digitale Visitenkarten oder One-Pager. Bei komplexen Dokumenten (Broschüren, Verträge) ist der manuelle Screenshot des Adressblocks (meist Fußzeile oder letzte Seite) der zuverlässigste Weg zu sauberen Daten.