Datenqualität & Scan-Optimierung Masterclass
Warum erkennt er die Mail nicht? Physik, Licht und DPI erklärt. Plus: So reinigen Sie Ihre Daten automatisch.
Datenqualität & Scan-Optimierung: DPI, Licht & Normalisierung
Performance-Tuning für Ihre Kontaktdaten. Wie Sie die OCR-Erkennungsrate maximieren und Datensätze automatisch bereinigen.
OCR (Texterkennung) ist keine Magie, sondern Physik und Informatik. Wer die Regeln versteht, bekommt bessere Daten.
1. Scan-Qualität: Die Physik des perfekten Bildes
Warum erkennt er die E-Mail nicht, obwohl das Bild "scharf" aussieht?
- Lichen & Schatten: Der Killer #1. Harte Schlagschatten (durch Deckenstrahler) zerschneiden Buchstaben (aus
Iwirdi, ausEwirdF).- Tipp: Nutzen Sie den Blitz oder schatten Sie die Karte mit dem Körper ab (diffuses Licht).
- Winkel & Entzerrung: Eine schräge Karte verzerrt die Schriftlinie. Moderne Algorithmen machen eine "Perspektivische Entzerrung" (Rectification), aber das kostet Rechenleistung und Schärfe.
- Tipp: Gehen Sie nah ran. 90° Winkel.
- DPI & Auflösung:
- Mehr ist nicht immer besser. Zu hohe Auflösung (> 12MP) verlangsamt den Upload und die Verarbeitung.
- Sweet Spot: 2–4 Megapixel reichen für perfekten Text.
- Kompression: Nutzen Sie High-Quality JPEG (80%+). Zu starke Kompression erzeugt Artefakte an den Buchstabenkanten (Noise).
2. Daten-Normalisierung (Nachbereitung)
Der Scanner liefert Rohdaten ("Dr. Max Mustermann, MBA"). Das CRM will Struktur.
Namens-Normalisierung
- Titel:
Dr.,Prof.,Dipl.-Ing.gehören oft in ein eigenes Feld "Anrede" oder "Titel", nicht in den "Vorname". - Doppelnamen:
Müller-Lüdenscheidt. Bindestriche müssen erhalten bleiben. - Groß-/Kleinschreibung:
MAX MUSTERMANN-> Konvertieren zuMax Mustermann(Title Case).
Telefonnummern (E.164)
Chaos: 0171 / 123 45, +49 (0) 171-123.
Lösung: Alles auf E.164 normieren: +4917112345.
Nutzen Sie unseren kostenlosen Telefonnummern-Formatierer.
3. Datenanreicherung (Enrichment)
Sie haben nur eine E-Mail? Holen Sie mehr raus.
- Domain-Analyse: Aus
max@siemens.comlässt sich ableiten:- Firma: Siemens
- Webseite: www.siemens.com
- Branche: Industrie (über externe APIs).
- Standort: Aus der PLZ auf der Karte lässt sich Stadt und Bundesland automatisch validieren (PLZ Check).
4. Encoding: Der Umlaute-Tod
Warum wird aus Müller -> Müller?
- Es ist ein Konflikt zwischen UTF-8 (Modern, Weltweit) und ISO-8859-1 / Windows-1252 (Alt, Excel-Standard).
- Regel: Speichern Sie ALLES immer als UTF-8. Wenn Excel es falsch anzeigt, ist Excel schuld (Importieren via "Daten > Aus Text/CSV").
5. Kontaktqualität messen
Wie gut ist Ihr Datenbestand? Messen Sie den "Data Health Score":
- Vollständigkeit: % der Kontakte mit E-Mail UND Telefon.
- Validität: % der E-Mails, die nicht bouncen.
- Dubletten-Rate: % der doppelten Einträge (Ziel: < 1%).
Fazit
Datenqualität beginnt bei der Aufnahme. Ein sauberes Foto spart 5 Minuten Nachbearbeitung. Eine automatisierte Normalisierung spart Stunden im Excel-Frust.
You might also be interested in
Parser API - Offline Browser-API für vCard-Parsing
Programmierbare Browser-API für Visitenkarten-Parsing. Vollständig offline, drei Zugriffsmethoden, DSGVO-orientiert. Für Entwickler und Tech-User.
Messe-Leads richtig erfassen: Der ultimative Leitfaden
Verlieren Sie keine Leads mehr! Unser umfassender Guide zeigt den perfekten Prozess von der Erfassung am Stand bis zum CRM-Import.
Digitale Visitenkarte erstellen (iPhone & Android)
Digitale Visitenkarte für iPhone und Android: QR + vCard, offline fähig und sofort speicherbar.