MultiField OCR2DATA – Anleitung & Erste Schritte

Download Free Version kostenlos. Erweiterte Lizenz in verschiedenen Variationen direkt bestellen

🚀 1. Einführung

MultiField OCR2DATA ermöglicht die automatische Extraktion strukturierter Daten aus PDFs und Bildern.

👉 Ziel:
Dokumente → direkt in nutzbare Daten (CSV, Excel, JSON, XML)

Dabei wird nicht nur Text erkannt, sondern gezielt strukturierte Informationen aus definierten Bereichen extrahiert und verarbeitet.

🧠 1.1 Intelligente OCR mit Selbstoptimierung (NEU)

MultiField OCR2DATA geht über klassische Texterkennung hinaus:

🔄 Automatische Mehrfacherkennung pro Feld
→ verschiedene OCR-Strategien werden kombiniert (Skalierung, Threshold, PSM)

🎯 Formatbasierte Bewertung
→ z. B. Datum, Kennzeichen oder Name werden gezielt validiert

🧪 Qualitätsbewertung mit Score & Confidence
→ beste Variante wird automatisch gewählt

👉 Ergebnis: deutlich höhere Trefferquote bei realen Dokumenten


⚡ 2. Schnellstart (5 Minuten)

  1. 📂 Dokumente laden
    • Einzeldatei oder Verzeichnis auswählen
    • Vorschau wird angezeigt
    • Alternativ: 📄 Direkt scannen
  2. 🧩 Profil wählen oder erstellen
    • Profile enthalten alle Einstellungen (Felder, Export, Quellen etc.)
  3. 📐 Felder definieren
    • Bereiche im Dokument markieren
    • Felder benennen
  4. 🔍 Erkennung starten
    • Ergebnisse erscheinen in der Tabelle
  5. 📊 Exportieren
    • Format wählen
    • Daten exportieren

⚡ 2.1 Performance & Stabilität für große Datenmengen (NEU)

Optimiert für reale Massenszenarien:

📊 Verarbeitung von hunderten Seiten pro Lauf
⏱️ Messung von Gesamtzeit & Durchschnitt pro Datensatz
🧾 Detailliertes Logging zur Analyse und Optimierung
🧯 Absturzsichere Verarbeitung

💾 2.2 Kein Datenverlust – auch bei langen Läufen

Auch bei langen Prozessen bleibt alles erhalten:

💾 Live-Zwischenspeicherung aller Ergebnisse (CSV)
🔁 Automatische Wiederanzeige beim nächsten Start. wenn noch nicht exportiert.
📁 Logdateien für vollständige Nachvollziehbarkeit

👉 Kein Datenverlust selbst bei Abbruch oder Fehler


📂 3. Dokumente & Import

Unterstützte Formate:

  • PDF
  • JPG / JPEG
  • PNG

📁 Verarbeitung von Verzeichnissen

  • ganze Ordner können verarbeitet werden
  • jedes Dokument wird einzeln analysiert

📄Intelligente PDF-Verarbeitung

📑 Flexible Seitensteuerung:

  • erste Seite
  • bestimmte Seite
  • alle Seiten automatisch

🧠 Vorab-Analyse der Dokumente
🧾 Vorschau & Steuerung pro Datei

👉 ideal für komplexe oder mehrseitige PDFs


🧩 4. Felddefinition – im Detail

Ein Feld legt fest, woher ein Wert kommt und was damit passiert.
Du kombinierst damit OCR, feste Werte und externe Datenquellen.


🔹 4.1 Quelle (SourceType)

Bestimmt, wo der Wert herkommt:


 

 

🖼️ image_region

Klassischer OCR-Bereich
Text wird aus einem markierten Bildausschnitt gelesen

👉 Typischer Einsatz: Rechnungen, Belege, Formulare

Beispiel:
Du markierst das Feld „Kennzeichen“ im Dokument →
OCR liest: M AB4123


📄 filename

Wert wird aus dem Dateinamen gelesen

👉 Gut für: IDs, Referenzen, Batch-Infos

Beispiel:
Datei: Rechnung_4711.pdf → Ergebnis: 4711


📁 filepath

Verwendet den kompletten Dateipfad

👉 Gut für: Struktur- oder Ablageinformationen

Beispiel:
C:\Import\KundeA\Rechnung.pdf
kann später genutzt werden, um „KundeA“ zu erkennen


🔢 constant

Fester, immer gleicher Wert

👉 Gut für: Tags, Kategorien, Importkennzeichen

Beispiel:
Wert: Import2026 → steht in jeder Zeile im Export


🧾 Metadata

Metadaten sind automatisch ermittelte Informationen zur Datei.
Diese können z. B. für Dateinamen, Exportfelder oder OCR-Zuordnungen verwendet werden.


📂 Allgemeine Dateiinformationen

👉 Beispiele:

  • Erstellungsdatum
  • Änderungsdatum
  • Dateiendung
  • Verzeichnis
  • Dateiname ohne Endung

Beispiel:
Rechnung_2026-04-09.pdf


🖼️ Bild-Metadaten (EXIF)

👉 Verfügbar bei Bilddateien (z. B. JPG, PNG)

  • Aufnahmedatum (EXIF)
  • Kamerahersteller / Modell
  • Bildbreite / Höhe

Beispiel:
IMG_2024-08-15_Canon_EOS80D.jpg


📄 PDF-Metadaten

👉 Verfügbar bei PDF-Dateien

  • Titel
  • Autor
  • Betreff
  • Keywords
  • Seitenanzahl

Beispiel:
Vertrag_MaxMustermann_12Seiten.pdf


⚙️ Systemwerte (intern)

👉 Werden während der Verarbeitung erzeugt

  • Zeitstempel (Verarbeitungszeit)
  • Laufende Nummer
  • Seitenindex (bei Mehrseiten-Dokumenten)

Beispiel:
2026-04-09_10-15_Seite1


💡 Hinweis

Nicht alle Metadaten sind bei jeder Datei verfügbar:

  • Bilddaten nur bei Bildern mit EXIF
  • PDF-Daten nur bei PDFs mit hinterlegten Metadaten

🔗 lookup_csv (Daten verknüpfen)

Wert wird aus einer externen CSV-Datei nachgeschlagen

💡 Idee:

Daten aus Dokumenten mit externen Daten kombinieren

👉 Prinzip:
Du hast einen erkannten Wert → suchst damit etwas in einer Tabelle → bekommst einen anderen Wert zurück

🔧 Funktionsweise:

  1. OCR liest Schlüssel (z. B. Schlüssel, Kundennummer, Kennzeichen)
  2. Wert wird intern gespeichert
  3. Lookup greift darauf zu
  4. Rückgabewert wird gesetzt

Beispiel (CSV):

 
Kundennummer;Auftragsnummer
M AB4123;T-1001
B XY999;T-1002
 

Ablauf:
OCR liest: M AB4123 →
Suche in CSV →
Ergebnis: T-1001

👉 Typischer Einsatz:

  • Kundennummer→ z.B. Auftragsnummer, Ticketnummer
  • Artikelnummer → Artikelname
  • Kundencode → Kundenname

🔎 Erweiterte Lookup-Logik (NEU)

🔗 Unterstützung von mehreren CSV-Dateien
✨ Wildcards möglich:

 
datenbank*.csv
 

→ mehrere Dateien werden automatisch kombiniert

🧠 Integriertes Caching für maximale Geschwindigkeit

👉 ideal für große Datenbestände und komplexe Zuordnungen


🔹 4.2 Rolle (FieldRole)

Bestimmt, wie das Feld verwendet wird:


data

Feld wird exportiert

👉 Standardfall
Alles, was in deiner Ergebnisliste oder CSV landen soll


helper

Feld wird nicht exportiert, dient nur intern

👉 Sehr wichtig für Logik / Zwischenschritte

Beispiel:

  1. OCR liest Schlüssel, Kundennummer, Kennzeichen, usw. → M AB4123 (helper)
  2. lookup_csv nutzt dieses Feld → liefert z.B: Auftragsnummer oder Ticketnummer, usw.
  3. Nur die aus der zusätzlichen CSV Datei ermittelte Auftragsnummer wird exportiert

action_only (optional / zukünftig)

Feld wird für Aktionen oder Automationen verwendet

👉 aktuell vorbereitet für spätere Erweiterungen
(z. B. Trigger, Workflows, Weiterverarbeitung)


💡 Typischer Workflow (vereinfacht)

  1. image_region (helper)
    → liest Kundennummer aus Dokument
  2. lookup_csv (data)
    → wandelt Kundennummer in Auftragsnummer, Ticketnummer, usw. um
  3. Export
    → enthält nur die Auftragsnummer/Ticketnummer, usw. (sauber & strukturiert)

🔹 4.3 Export

  • „In Export aufnehmen“ aktivieren
  • Spaltenname definieren

👉 Reihenfolge wichtig:

  • entspricht der Reihenfolge in der Feldliste
  • kann über Hoch/Runter geändert werden

🔍 5. OCR-Bereiche richtig definieren

✔ möglichst kleiner, präziser Bereich
✔ nur relevanten Text erfassen
✔ keine großen Ränder

👉 verbessert Genauigkeit und Performance


📍 6. Referenzanker (Positionskorrektur)

Problem:

Scans sind oft leicht verschoben

Lösung:

👉 Referenzfeld definieren


🔧 Funktionsweise:

  • ein fester Bereich wird gesucht (z. B. Überschrift)
  • daraus wird ein Offset berechnet
  • alle anderen Felder werden angepasst

⚠️ Best Practices:

✔ festen Text wählen (nicht variabel!)
✔ möglichst kleiner Bereich
✔ hoher Kontrast


🚨 Performance-Hinweis:

  • je größer der Referenzbereich → desto langsamer
  • kleine, präzise Referenz = deutlich schneller

💡 Hinweis:

  • Referenzfeld wird nicht exportiert
  • dient nur zur Ausrichtung

👉 Ergebnis:

✔ stabile Erkennung auch bei verschobenen Scans
✔ deutlich weniger Fehlzuordnungen


 

🧪 7. Formate & Datenaufbereitung

Formate sorgen dafür, dass Daten direkt nutzbar sind.


Beispiele:

Kennzeichen

  • entfernt Leerzeichen / normalisiert

Datum

  • wandelt in gewünschtes Format

Name

  • trennt Vor- und Nachname

Anrede (Gender)

  • basiert auf Vornamenliste
  • interne CSV wird genutzt

👉 Ergebnis:

  • Herr / Frau automatisch bestimmbar

🔹 7.1 Vornamenliste für automatische Anrede Bestimmung aus Vorname

Wird die Anrede wird als Datenexport benötigt, jedoch im Dokument ist lediglich der Vorname enthalten?

Lösung: als Format „gender_guess“ auswählen.

Zuvor in den Programm Einstellungen sicherstellen, dass eine Liste, mit Vornamen und dem zugehörigen Geschlecht als Referenz/Nachschlagewerk eingestellt ist.


💡 Erweiterbar:

  • eigene Formate möglich

🖼️ 8. Vorschau & Kontrolle

Nach der Erkennung:

  • Daten werden in Tabelle angezeigt
  • Bildausschnitte sichtbar
  • Ergebnisse überprüfbar

✏️ Manuelle Korrektur:

👉 Werte können direkt angepasst werden
vor dem Export


📊 9. Export

Formate:

  • CSV
  • Excel
  • JSON
  • XML
  • HTML

Funktionen:

  • Reihenfolge steuerbar
  • Felder auswählbar
  • Trennzeichen definierbar

💡 Spezialfall:

Feld existiert nicht im Dokument?

👉 Lösung:

  • helper + lookup_csv verwenden

🧾 Flexible Dokumentausgabe mit HTML-Vorlagen

Mit dem neuen HTML-Export bietet MultiField OCR2DATA eine besonders flexible Möglichkeit, erkannte Daten neben den tabellarischen Exportmöglichkeiten per  CSV, Excel oder XML nun auch zusätzlich die Möglichkeit, die erkannten Datenfelder direkt in individuell gestaltete Dokumente umzuwandeln.

🧩 Individuelle Vorlagen statt starrer Exporte

Anstatt nur strukturierte Daten (CSV, Excel, JSON) zu exportieren, können jetzt:

  • 📄 eigene HTML-Vorlagen definiert werden
  • 🎨 Layout und Darstellung frei gestaltet werden
  • 🔄 erkannte Felder werden automatisch eingesetzt

👉 Ideal für:

  • Anschreiben
  • Berichte
  • Dokumentationen
  • oder weiterverarbeitbare Druckvorlagen

📁 Automatische Dokumenterstellung

Für jeden Datensatz wird automatisch eine eigene Datei erzeugt:

  • 🧾 Ein Dokument pro Scan / Datensatz
  • 🏷️ frei definierbarer Dateiname (z. B. Dokument_{{Index}}_{{Datei}}.html)
  • 📂 Ausgabe in beliebigen Zielordner

⚙️ Benutzerfreundlicher Template-Editor

Die HTML-Vorlagen lassen sich direkt im Programm bearbeiten:

  • ✏️ integrierter Editor für schnelle Anpassungen
  • 📋 Übersicht aller verfügbaren Platzhalter
  • 💾 Vorlagen zentral speicherbar und wiederverwendbar

👉 Auch ohne tiefere HTML-Kenntnisse lassen sich einfache Layouts schnell erstellen.


🧠 Intelligente Datenaufbereitung

In Kombination mit den bestehenden Funktionen profitieren HTML-Exporte zusätzlich von:

  • 🧠 intelligenter OCR-Nachbearbeitung
  • 🎯 formatbasierter Erkennung (z. B. Datum, Kennzeichen, Namen)
  • 👤 automatischer Anrede-Ermittlung (z. B. über Vornamen-Genderliste)

👉 Ergebnis: direkt verwendbare, strukturierte Dokumente statt Rohdaten

🚀 Praxisvorteil

Der HTML-Export schließt die Lücke zwischen Datenerfassung und Dokumentenerstellung:

Scan → OCR → strukturierte Daten → fertiges Dokument
Ohne zusätzliche Tools oder manuelle Nachbearbeitung.
Weitere Infos zur Dokumenten Ausgabe mit HTML Textvorlagen finden Sie hier.

🧰 9. ENTWICKLER / FLEXIBILITÄT 

🧰 Entwicklerfreundlich & flexibel 

🧩 Modulare Felddefinitionen
🧠 Helper-Felder für komplexe Datenlogik
🔁 Erweiterbar ohne externe KI

👉 ideal für individuelle Workflows und Spezialfälle


⚡ 10. Profile

Profile speichern:

  • Felddefinitionen
  • Exporteinstellungen
  • Pfade
  • Formate

👉 mehrere Anwendungsfälle parallel möglich


🔄 11. Typischer Workflow

  1. Beispiel-Dokument laden bzw. direkt scannen
  2. Felder definieren
  3. Referenz setzen (optional)
  4. Formate anwenden
  5. Lookup konfigurieren
  6. testen
  7. Profil speichern
  8. Batch starten

❗ 12. Häufige Probleme

Feld leer

→ OCR-Bereich prüfen


Lookup funktioniert nicht

→ Schreibweise prüfen
→ Format anwenden


falsche Werte

→ Bereich zu groß
→ Format fehlt


📄 13. Direkt scannen (integrierte Funktion)

Neben dem Import von Dateien können Dokumente auch direkt eingescannt werden.

👉 Funktion: „📄 Direkt Scannen…“


🔧 Funktionsweise

  • Scanner wird direkt aus der Anwendung heraus angesprochen
  • gescannte Seiten werden automatisch in die Verarbeitung übernommen
  • Vorschau und OCR stehen sofort zur Verfügung

💡 Einsatzmöglichkeiten

✔ Einzelne Dokumente schnell erfassen
✔ Papierdokumente ohne Zwischenschritte digitalisieren
✔ direkt in bestehende Profile einlesen


⚠️ Hinweise

  • bei mehreren Seiten empfiehlt sich:
    • entweder Einzel-Scan pro Dokument
    • oder Nutzung eines Einzugsscanners

👉 optimal: ein Dokument = eine Seite


💡 Tipp

Die Scanner-Funktion eignet sich ideal für:

👉 spontane Erfassung einzelner Dokumente
👉 kleinere Arbeitsmengen ohne vorherige Dateiablage

Für große Mengen empfiehlt sich weiterhin der Import aus einem Verzeichnis.


🔮 14. Ausblick

Geplante Erweiterungen:

  • erweiterte Aktionen (z. B. API-Aufrufe)

📥 Fazit

MultiField OCR2DATA ist mehr als ein OCR-Tool:

👉 es ist ein flexibles System zur Datenautomatisierung

Mit:

  • Feldlogik
  • Referenzanker
  • CSV-Verknüpfung
  • Formatregeln

lassen sich selbst komplexe Dokument Prozesse automatisieren.


💡 Tipp:
Ein gut eingerichtetes Profil spart dauerhaft Zeit – oft schon nach wenigen Dokumenten.

 

🧪 Praxiserprobt

Das System wurde bereits mit großen Datenmengen getestet:

✔ hunderte Seiten pro Lauf
✔ stabile Verarbeitung über längere Zeiträume
✔ nachvollziehbare Ergebnisse durch Logging

 


Von Dokument zu Daten in Sekunden: OCR mit strukturierter Felderkennung und Export in Excel, CSV & mehr.

👉 Zur Produktseite