MultiField OCR2DATA – Anleitung & Erste Schritte

Download Free Version kostenlos. Erweiterte Lizenz in verschiedenen Variationen direkt bestellen

🚀 1. Einführung

MultiField OCR2DATA ermöglicht die automatische Extraktion strukturierter Daten aus PDFs und Bildern.

👉 Ziel:
Dokumente → direkt in nutzbare Daten (CSV, Excel, JSON, XML)

Dabei wird nicht nur Text erkannt, sondern gezielt strukturierte Informationen aus definierten Bereichen extrahiert und verarbeitet.

🧠 1.1 Intelligente OCR mit Selbstoptimierung (NEU)

MultiField OCR2DATA geht über klassische Texterkennung hinaus:

🔄 Automatische Mehrfacherkennung pro Feld
→ verschiedene OCR-Strategien werden kombiniert (Skalierung, Threshold, PSM)

🎯 Formatbasierte Bewertung
→ z. B. Datum, Kennzeichen oder Name werden gezielt validiert

🧪 Qualitätsbewertung mit Score & Confidence
→ beste Variante wird automatisch gewählt

👉 Ergebnis: deutlich höhere Trefferquote bei realen Dokumenten


⚡ 2. Schnellstart (5 Minuten)

  1. 📂 Dokumente laden
    • Einzeldatei oder Verzeichnis auswählen
    • Vorschau wird angezeigt
    • Alternativ: 📄 Direkt scannen
  2. 🧩 Profil wählen oder erstellen
    • Profile enthalten alle Einstellungen (Felder, Export, Quellen etc.)
  3. 📐 Felder definieren
    • Bereiche im Dokument markieren
    • Felder benennen
  4. 🔍 Erkennung starten
    • Ergebnisse erscheinen in der Tabelle
  5. 📊 Exportieren
    • Format wählen
    • Daten exportieren

⚡ 2.1 Performance & Stabilität für große Datenmengen (NEU)

Optimiert für reale Massenszenarien:

📊 Verarbeitung von hunderten Seiten pro Lauf
⏱️ Messung von Gesamtzeit & Durchschnitt pro Datensatz
🧾 Detailliertes Logging zur Analyse und Optimierung
🧯 Absturzsichere Verarbeitung

💾 2.2 Kein Datenverlust – auch bei langen Läufen

Auch bei langen Prozessen bleibt alles erhalten:

💾 Live-Zwischenspeicherung aller Ergebnisse (CSV)
🔁 Automatische Wiederanzeige beim nächsten Start. wenn noch nicht exportiert.
📁 Logdateien für vollständige Nachvollziehbarkeit

👉 Kein Datenverlust selbst bei Abbruch oder Fehler


📂 3. Dokumente & Import

Unterstützte Formate:

  • PDF
  • JPG / JPEG
  • PNG

📁 Verarbeitung von Verzeichnissen

  • ganze Ordner können verarbeitet werden
  • jedes Dokument wird einzeln analysiert

📄Intelligente PDF-Verarbeitung

📑 Flexible Seitensteuerung:

  • erste Seite
  • bestimmte Seite
  • alle Seiten automatisch

🧠 Vorab-Analyse der Dokumente
🧾 Vorschau & Steuerung pro Datei

👉 ideal für komplexe oder mehrseitige PDFs

 


🧩 4. Felddefinition – im Detail

Ein Feld legt fest, woher ein Wert kommt und was damit passiert.
Du kombinierst damit OCR, feste Werte und externe Datenquellen.


🔹 4.1 Quelle (SourceType)

Bestimmt, wo der Wert herkommt:


 

 

🖼️ image_region

Klassischer OCR-Bereich
Text wird aus einem markierten Bildausschnitt gelesen

👉 Typischer Einsatz: Rechnungen, Belege, Formulare

Beispiel:
Du markierst das Feld „Kennzeichen“ im Dokument →
OCR liest: M AB4123


📄 filename

Wert wird aus dem Dateinamen gelesen

👉 Gut für: IDs, Referenzen, Batch-Infos

Beispiel:
Datei: Rechnung_4711.pdf → Ergebnis: 4711


📁 filepath

Verwendet den kompletten Dateipfad

👉 Gut für: Struktur- oder Ablageinformationen

Beispiel:
C:\Import\KundeA\Rechnung.pdf
kann später genutzt werden, um „KundeA“ zu erkennen


🔢 constant

Fester, immer gleicher Wert

👉 Gut für: Tags, Kategorien, Importkennzeichen

Beispiel:
Wert: Import2026 → steht in jeder Zeile im Export


🧾 Metadata

Metadaten sind automatisch ermittelte Informationen zur Datei.
Diese können z. B. für Dateinamen, Exportfelder oder OCR-Zuordnungen verwendet werden.


📂 Allgemeine Dateiinformationen

👉 Beispiele:

  • Erstellungsdatum
  • Änderungsdatum
  • Dateiendung
  • Verzeichnis
  • Dateiname ohne Endung

Beispiel:
Rechnung_2026-04-09.pdf


🖼️ Bild-Metadaten (EXIF)

👉 Verfügbar bei Bilddateien (z. B. JPG, PNG)

  • Aufnahmedatum (EXIF)
  • Kamerahersteller / Modell
  • Bildbreite / Höhe

Beispiel:
IMG_2024-08-15_Canon_EOS80D.jpg


📄 PDF-Metadaten

👉 Verfügbar bei PDF-Dateien

  • Titel
  • Autor
  • Betreff
  • Keywords
  • Seitenanzahl

Beispiel:
Vertrag_MaxMustermann_12Seiten.pdf


⚙️ Systemwerte (intern)

👉 Werden während der Verarbeitung erzeugt

  • Zeitstempel (Verarbeitungszeit)
  • Laufende Nummer
  • Seitenindex (bei Mehrseiten-Dokumenten)

Beispiel:
2026-04-09_10-15_Seite1


💡 Hinweis

Nicht alle Metadaten sind bei jeder Datei verfügbar:

  • Bilddaten nur bei Bildern mit EXIF
  • PDF-Daten nur bei PDFs mit hinterlegten Metadaten

🔗 lookup_csv (Daten verknüpfen)

Wert wird aus einer externen CSV-Datei nachgeschlagen

💡 Idee:

Daten aus Dokumenten mit externen Daten kombinieren

👉 Prinzip:
Du hast einen erkannten Wert → suchst damit etwas in einer Tabelle → bekommst einen anderen Wert zurück

🔧 Funktionsweise:

  1. OCR liest Schlüssel (z. B. Schlüssel, Kundennummer, Kennzeichen)
  2. Wert wird intern gespeichert
  3. Lookup greift darauf zu
  4. Rückgabewert wird gesetzt

Beispiel (CSV):

 
Kundennummer;Auftragsnummer
M AB4123;T-1001
B XY999;T-1002
 

Ablauf:
OCR liest: M AB4123 →
Suche in CSV →
Ergebnis: T-1001

👉 Typischer Einsatz:

  • Kundennummer→ z.B. Auftragsnummer, Ticketnummer
  • Artikelnummer → Artikelname
  • Kundencode → Kundenname

🔎 Erweiterte Lookup-Logik (NEU)

🔗 Unterstützung von mehreren CSV-Dateien
✨ Wildcards möglich:

 
datenbank*.csv
 

→ mehrere Dateien werden automatisch kombiniert

🧠 Integriertes Caching für maximale Geschwindigkeit

👉 ideal für große Datenbestände und komplexe Zuordnungen

 


🔹 4.2 Rolle (FieldRole)

Bestimmt, wie das Feld verwendet wird:


data

Feld wird exportiert

👉 Standardfall
Alles, was in deiner Ergebnisliste oder CSV landen soll


helper

Feld wird nicht exportiert, dient nur intern

👉 Sehr wichtig für Logik / Zwischenschritte

Beispiel:

  1. OCR liest Schlüssel, Kundennummer, Kennzeichen, usw. → M AB4123 (helper)
  2. lookup_csv nutzt dieses Feld → liefert z.B: Auftragsnummer oder Ticketnummer, usw.
  3. Nur die aus der zusätzlichen CSV Datei ermittelte Auftragsnummer wird exportiert

action_only (optional / zukünftig)

Feld wird für Aktionen oder Automationen verwendet

👉 aktuell vorbereitet für spätere Erweiterungen
(z. B. Trigger, Workflows, Weiterverarbeitung)


💡 Typischer Workflow (vereinfacht)

  1. image_region (helper)
    → liest Kundennummer aus Dokument
  2. lookup_csv (data)
    → wandelt Kundennummer in Auftragsnummer, Ticketnummer, usw. um
  3. Export
    → enthält nur die Auftragsnummer/Ticketnummer, usw. (sauber & strukturiert)

🔹 4.3 Export

  • „In Export aufnehmen“ aktivieren
  • Spaltenname definieren

👉 Reihenfolge wichtig:

  • entspricht der Reihenfolge in der Feldliste
  • kann über Hoch/Runter geändert werden

🔍 5. OCR-Bereiche richtig definieren

✔ möglichst kleiner, präziser Bereich
✔ nur relevanten Text erfassen
✔ keine großen Ränder

👉 verbessert Genauigkeit und Performance


📍 6. Referenzanker (Positionskorrektur)

Problem:

Scans sind oft leicht verschoben

Lösung:

👉 Referenzfeld definieren


🔧 Funktionsweise:

  • ein fester Bereich wird gesucht (z. B. Überschrift)
  • daraus wird ein Offset berechnet
  • alle anderen Felder werden angepasst

⚠️ Best Practices:

✔ festen Text wählen (nicht variabel!)
✔ möglichst kleiner Bereich
✔ hoher Kontrast


🚨 Performance-Hinweis:

  • je größer der Referenzbereich → desto langsamer
  • kleine, präzise Referenz = deutlich schneller

💡 Hinweis:

  • Referenzfeld wird nicht exportiert
  • dient nur zur Ausrichtung

👉 Ergebnis:

✔ stabile Erkennung auch bei verschobenen Scans
✔ deutlich weniger Fehlzuordnungen


 

🧪 7. Formate & Datenaufbereitung

Formate sorgen dafür, dass Daten direkt nutzbar sind.


Beispiele:

Kennzeichen

  • entfernt Leerzeichen / normalisiert

Datum

  • wandelt in gewünschtes Format

Name

  • trennt Vor- und Nachname

Anrede (Gender)

  • basiert auf Vornamenliste
  • interne CSV wird genutzt

👉 Ergebnis:

  • Herr / Frau automatisch bestimmbar

🔹 7.1 Vornamenliste für automatische Anrede Bestimmung aus Vorname

Wird die Anrede wird als Datenexport benötigt, jedoch im Dokument ist lediglich der Vorname enthalten?

Lösung: als Format „gender_guess“ auswählen.

Zuvor in den Programm Einstellungen sicherstellen, dass eine Liste, mit Vornamen und dem zugehörigen Geschlecht als Referenz/Nachschlagewerk eingestellt ist.


💡 Erweiterbar:

  • eigene Formate möglich

🖼️ 8. Vorschau & Kontrolle

Nach der Erkennung:

  • Daten werden in Tabelle angezeigt
  • Bildausschnitte sichtbar
  • Ergebnisse überprüfbar

✏️ Manuelle Korrektur:

👉 Werte können direkt angepasst werden
vor dem Export


📊 9. Export

Formate:

  • CSV
  • Excel
  • JSON
  • XML

Funktionen:

  • Reihenfolge steuerbar
  • Felder auswählbar
  • Trennzeichen definierbar

💡 Spezialfall:

Feld existiert nicht im Dokument?

👉 Lösung:

  • helper + lookup_csv verwenden

🧰 9. ENTWICKLER / FLEXIBILITÄT 

🧰 Entwicklerfreundlich & flexibel 

🧩 Modulare Felddefinitionen
🧠 Helper-Felder für komplexe Datenlogik
🔁 Erweiterbar ohne externe KI

👉 ideal für individuelle Workflows und Spezialfälle


⚡ 10. Profile

Profile speichern:

  • Felddefinitionen
  • Exporteinstellungen
  • Pfade
  • Formate

👉 mehrere Anwendungsfälle parallel möglich


🔄 11. Typischer Workflow

  1. Beispiel-Dokument laden bzw. direkt scannen
  2. Felder definieren
  3. Referenz setzen (optional)
  4. Formate anwenden
  5. Lookup konfigurieren
  6. testen
  7. Profil speichern
  8. Batch starten

❗ 12. Häufige Probleme

Feld leer

→ OCR-Bereich prüfen


Lookup funktioniert nicht

→ Schreibweise prüfen
→ Format anwenden


falsche Werte

→ Bereich zu groß
→ Format fehlt


📄 13. Direkt scannen (integrierte Funktion)

Neben dem Import von Dateien können Dokumente auch direkt eingescannt werden.

👉 Funktion: „📄 Direkt Scannen…“


🔧 Funktionsweise

  • Scanner wird direkt aus der Anwendung heraus angesprochen
  • gescannte Seiten werden automatisch in die Verarbeitung übernommen
  • Vorschau und OCR stehen sofort zur Verfügung

💡 Einsatzmöglichkeiten

✔ Einzelne Dokumente schnell erfassen
✔ Papierdokumente ohne Zwischenschritte digitalisieren
✔ direkt in bestehende Profile einlesen


⚠️ Hinweise

  • bei mehreren Seiten empfiehlt sich:
    • entweder Einzel-Scan pro Dokument
    • oder Nutzung eines Einzugsscanners

👉 optimal: ein Dokument = eine Seite


💡 Tipp

Die Scanner-Funktion eignet sich ideal für:

👉 spontane Erfassung einzelner Dokumente
👉 kleinere Arbeitsmengen ohne vorherige Dateiablage

Für große Mengen empfiehlt sich weiterhin der Import aus einem Verzeichnis.


🔮 14. Ausblick

Geplante Erweiterungen:

  • erweiterte Aktionen (z. B. API-Aufrufe)

📥 Fazit

MultiField OCR2DATA ist mehr als ein OCR-Tool:

👉 es ist ein flexibles System zur Datenautomatisierung

Mit:

  • Feldlogik
  • Referenzanker
  • CSV-Verknüpfung
  • Formatregeln

lassen sich selbst komplexe Dokument Prozesse automatisieren.


💡 Tipp:
Ein gut eingerichtetes Profil spart dauerhaft Zeit – oft schon nach wenigen Dokumenten.

 

🧪 Praxiserprobt

Das System wurde bereits mit großen Datenmengen getestet:

✔ hunderte Seiten pro Lauf
✔ stabile Verarbeitung über längere Zeiträume
✔ nachvollziehbare Ergebnisse durch Logging

 


Von Dokument zu Daten in Sekunden: OCR mit strukturierter Felderkennung und Export in Excel, CSV & mehr.

👉 Zur Produktseite