- OCR ist nicht mehr nur Texterkennung. OCR 4 erkennt die Struktur eines Dokuments — Überschriften, Tabellen, Formeln, Unterschriften — und gibt sie maschinenlesbar aus.
- Pro Element liefert es Position (Bounding-Box), Block-Typ und einen Confidence-Score. Damit ist die Ausgabe direkt weiterverarbeitbar, nicht nur eine Textwüste.
- Europäischer Anbieter, On-Prem auf Anfrage. Als einzelner Container im eigenen Rechenzentrum betreibbar — sensible Dokumente verlassen das Haus nicht. (Lizenziert, kein Open-Weight.)
- Preis über die API: ca. 4 $ pro 1.000 Seiten, im Batch ca. 2 $. Der eigentliche Hebel liegt nicht im Seitenpreis, sondern in der Integration in deinen Prozess.
Anlass für diesen Beitrag ist eine Häufung von Modell-Releases rund um Dokumenten-KI im Sommer 2026 — Mistral OCR 4 ist der für den Mittelstand greifbarste davon. Denn anders als ein neues Sprachmodell, das man erst einmal in einen Use-Case übersetzen muss, trifft OCR ein Problem, das praktisch jeder Betrieb hat: Information liegt in Dokumenten fest, und sie da herauszubekommen kostet Menschen Zeit. Schauen wir uns an, was sich konkret geändert hat.
Von „Text auslesen" zu „Dokument verstehen"
Klassische Texterkennung (OCR) macht aus einem Scan eine lange Zeichenkette. Praktisch, wenn man nur volltextsuchbar machen will — nutzlos, sobald die Struktur zählt. Eine Rechnung ist eben nicht nur Text: Es gibt einen Rechnungsbetrag, eine Tabelle mit Positionen, ein Datum, eine Steuernummer. Wer das mit reinem OCR herauszieht, bekommt einen Wortbrei, den anschließend ein zweites System mühsam wieder sortieren muss.
Genau hier setzt die neue Generation an. OCR 4 liest nicht nur Zeichen, sondern erkennt Blöcke und ihre Rolle: Das hier ist eine Überschrift, das eine Tabelle, das eine Formel, das eine Unterschrift. Es weiß, wo auf der Seite jedes Element steht (Bounding-Box), und es sagt dazu, wie sicher es sich ist (Confidence-Score). Aus „Text auslesen" wird „Dokument verstehen" — und das ist der Unterschied zwischen Rohmaterial und etwas, mit dem ein Prozess direkt weiterarbeiten kann.
Was OCR 4 konkret ausgibt
Drei Dinge unterscheiden die Ausgabe von simplem OCR — und genau diese drei machen sie automatisierbar:
| Was | Bedeutung | Wofür im Betrieb |
|---|---|---|
| Bounding-Box | Position jedes Elements auf der Seite | Felder gezielt herausgreifen, Quellen-Verweise für Prüfung |
| Block-Typ | Klassifikation: Titel, Tabelle, Formel, Unterschrift … | Tabellen sauber als Tabellen extrahieren, nicht als Fließtext |
| Confidence-Score | Wie sicher ist sich das Modell je Wort / Seite | Unsichere Stellen automatisch an einen Menschen zur Prüfung |
Quelle: Mistral, Produktankündigung OCR 4 (Juni 2026)
Der Confidence-Score ist der unterschätzte Teil. Er macht einen sauberen Human-in-the-Loop möglich: Was das Modell sicher erkennt, läuft automatisch durch; was unsicher ist, landet auf dem Tisch eines Menschen. Kein Alles-oder-nichts, sondern ein Prozess, der mit jeder Korrektur belastbarer wird. Dazu unterstützt OCR 4 nach Herstellerangaben rund 170 Sprachen und gängige Formate von PDF über DOC und PPT bis OpenDocument.
Der Punkt, der für den Mittelstand zählt: Die Daten bleiben im Haus
Dokumente sind selten harmlos. In Rechnungen, Verträgen und Personalakten stecken die sensibelsten Daten eines Betriebs. Genau deshalb ist die Frage „Wo wird das verarbeitet?" bei Dokumenten-KI keine Nebensache, sondern der Kern. Eine reine US-Cloud-API bedeutet: Jede gescannte Personalakte verlässt den europäischen Rechtsraum.
Mistral ist ein französischer Anbieter, und OCR 4 lässt sich auf Anfrage als einzelner Container in der eigenen Infrastruktur betreiben — on premise, hinter der eigenen Firewall. Damit verlassen die Dokumente das Haus nicht. Für DSGVO-kritische Workloads ist das ein handfester Vorteil gegenüber einem reinen API-Modell. Wichtig zur Einordnung: Das ist eine lizenzierte Enterprise-Option, kein frei herunterladbares Open-Weight-Modell — wer das braucht, klärt Konditionen direkt mit dem Anbieter. Wer noch grundsätzlicher abwägt, ob Eigenbetrieb oder Einkauf, findet die Logik in unserem Leitfaden zu lokalen LLMs für den Mittelstand und im Build-vs-Buy-Vergleich.
Was kostet das?
Über die API ruft Mistral (Stand Juni 2026) rund 4 $ pro 1.000 Seiten auf, im Batch-Betrieb etwa 2 $ pro 1.000 Seiten. Für den On-Prem-Container gelten gesonderte Enterprise-Konditionen. Diese Zahlen sind schnell eingeordnet: Rechnet man eine Person, die Belege manuell abtippt, gegen einen Seitenpreis im einstelligen Cent-Bereich, ist die Richtung klar.
Aber Vorsicht vor der Milchmädchenrechnung. Der Seitenpreis ist der kleinste Posten. Der eigentliche Aufwand — und der eigentliche Wert — liegt in der Integration: das Modell an deine Dokumenttypen anbinden, die Felder herausgreifen, die du brauchst, die unsicheren Fälle sauber an Menschen routen und das Ergebnis in dein bestehendes System (ERP, DMS, Buchhaltung) schreiben. Ein Modell, das Dokumente versteht, ist die Voraussetzung — aber erst der Prozess drumherum spart Stunden.
Wo es sich lohnt — und wo nicht
Sinnvolle Einsatzfelder im Mittelstand sind überall dort, wo strukturierte Information in unstrukturierten Dokumenten gefangen ist:
- Rechnungs- und Belegverarbeitung — Positionen, Beträge, Steuern automatisch in die Buchhaltung.
- Formulare & Anträge — ausgefüllte Felder maschinell erfassen statt abtippen.
- Vertrags- und Aktensuche — Dokumente durchsuchbar und zitierfähig machen (Grundlage für agentische Workflows und RAG).
- Wissensdatenbank — Altbestände an PDFs endlich indexierbar, mit Quellenverweis bis auf die Stelle.
Genauso wichtig ist die ehrliche Abgrenzung — die Mistral selbst zieht. OCR 4 ist für Dokumentverständnis gebaut, ausdrücklich nicht für medizinische Diagnosen, juristische Urteile, hochriskante Finanzentscheidungen oder sicherheitskritische Systeme. Es liefert die strukturierten Daten — die Entscheidung bleibt beim Menschen oder bei einem klar abgegrenzten, geprüften Prozess. Wer das beachtet, baut etwas Belastbares; wer es ignoriert, baut ein Risiko.
So gehst du es an
Man muss nicht das ganze Dokumenten-Chaos auf einmal lösen. Der pragmatische Weg:
- Einen Dokumenttyp wählen, der oft vorkommt und klar strukturiert ist — Eingangsrechnungen sind der Klassiker.
- Mit echten Dokumenten testen, nicht mit Demo-Beispielen. Herstellerbenchmarks sind ein Indiz, kein Ersatz für den Test mit deinen Belegen.
- Confidence-Schwelle festlegen: Ab wann läuft etwas automatisch durch, ab wann zur menschlichen Prüfung?
- Deployment nach Datenlage: unkritisch → API genügt; sensibel → On-Prem-Container prüfen.
- An ein System anbinden, das den Output auch nutzt. Extraktion ohne Anschluss ist ein halbes Projekt.
So wird aus einem beeindruckenden Modell ein Prozess, der jeden Monat Stunden spart — und mit jeder Korrektur besser wird. Welches Modell für welche Aufgabe überhaupt das richtige ist, ordnen wir grundsätzlicher in Welches KI-Modell braucht der Mittelstand 2026? ein.
Quellen und Einordnung
Anlass dieses Beitrags ist die Veröffentlichung von Mistral OCR 4 (Juni 2026) sowie die öffentliche Berichterstattung dazu (u. a. Mistrals Produktankündigung, heise online, VentureBeat). Die genannten Funktionen, Sprachzahl, Preise und Benchmark-Werte (OlmOCRBench 85,20; OmniDocBench 93,07; 72 % Gewinnrate in einer Blindbewertung über 600+ Dokumente) sind Mistrals offizielle bzw. herstellernah berichtete Angaben, Stand Juni 2026 — kein unabhängiger Test durch Digital Maker. Die Self-Hosting-Option ist nach derzeitigem Stand eine lizenzierte Enterprise-Variante, kein frei verfügbares Open-Weight-Modell. Bewertungen und Empfehlungen sind die Sicht von Digital Maker und basieren auf unserer Projekterfahrung.
Häufige Fragen: Mistral OCR 4 im Mittelstand
Was ist Mistral OCR 4?
Mistral OCR 4 ist ein im Juni 2026 vom französischen Anbieter Mistral veröffentlichtes Modell zur Dokumentenverarbeitung. Es liest nicht nur Text aus PDFs, Scans und Office-Dateien aus, sondern erkennt die Struktur: Überschriften, Tabellen, Formeln, Unterschriften. Pro Element gibt es Positionsangaben (Bounding-Boxes) und Confidence-Scores. Das macht die Ausgabe direkt weiterverarbeitbar — etwa für Suche, RAG oder Automatisierung.
Lässt sich Mistral OCR 4 selbst hosten?
Ja, auf Anfrage. Neben der Cloud-API (Mistral Studio, AWS SageMaker, Microsoft Foundry) bietet Mistral eine Self-Hosting-Variante als einzelnen Container an, die in der eigenen Infrastruktur läuft. Wichtig: Das ist eine lizenzierte Enterprise-Option, kein frei verfügbares Open-Weight-Modell. Für den Mittelstand mit sensiblen Dokumenten ist gerade dieser On-Prem-Betrieb der entscheidende Punkt — die Daten verlassen das Haus nicht.
Was kostet Mistral OCR 4?
Über die API kostet die Verarbeitung rund 4 $ pro 1.000 Seiten, im Batch-Betrieb etwa 2 $ pro 1.000 Seiten (Stand Juni 2026, Mistrals offizielle Angaben). Für Self-Hosting gelten gesonderte Enterprise-Konditionen. Im Vergleich zu manueller Dateneingabe oder älteren OCR-Stacks ist der Seitenpreis niedrig — der eigentliche Aufwand steckt in der Integration in den eigenen Prozess.
Wie genau ist Mistral OCR 4?
Mistral nennt einen Spitzenwert von 85,20 auf dem OlmOCRBench und 93,07 auf OmniDocBench; in einer Blindbewertung über 600+ mehrsprachige Dokumente bevorzugten Annotatoren OCR 4 mit einer durchschnittlichen Gewinnrate von 72 % gegenüber konkurrierenden Systemen. Das sind herstellereigene bzw. herstellernah berichtete Zahlen — für den eigenen Use-Case zählt am Ende ein Test mit den eigenen Dokumenten.
Für welche Aufgaben eignet sich Mistral OCR 4 nicht?
Mistral grenzt den Einsatz bewusst ein: Das Modell ist für Dokumentverständnis gedacht, nicht für medizinische Diagnosen, juristische Urteile, hochriskante Finanzentscheidungen oder sicherheitskritische Systeme. Es liefert strukturierte Daten als Eingang für einen Prozess — die Entscheidung trifft weiterhin ein Mensch oder ein klar abgegrenzter, geprüfter Workflow.
Welcher Dokumentenstapel kostet dich jeden Monat die meiste Zeit?
Im Discovery Call nehmen wir einen konkreten Dokumenttyp aus deinem Betrieb, schauen, ob sich Extraktion lohnt, klären die Datenlage (API oder On-Prem) und skizzieren den Weg vom Scan bis in dein System. Vier Augen, dreißig Minuten, keine Folien.