Documents API

Mach aus jedem Dokument KI-fertige Inhalte

Hol Text, Tabellen und Bilder aus PDFs, Office-Dateien und Bildern über eine API. Fortschrittliche OCR macht aus gescannten Dokumenten sauberes Markdown, JSON oder HTML, bereit für RAG-Pipelines, Digitalisierung und Rechnungsverarbeitung.

Konto erstellen 14 Tage kostenlos (opens in a new tab) Zur Doku

Warum GreenPT

Dokument-KI ohne Kompromisse bei den Daten

Die meisten Dokument-APIs verlangen, dass du sensible Dateien an Infrastruktur sendest, die du nicht kontrollierst. GreenPT verarbeitet deine Dokumente auf privater, in der EU gehosteter Infrastruktur mit erneuerbarer Energie, und trainiert nie auf deinen Daten.

In der EU gehostet und DSGVO-konform, sensible Dokumente bleiben in Europa.
Privat by Design: deine Dateien werden nie zum Training verwendet.
Breite Formatabdeckung in einer API, von PDFs über Tabellen bis Bilder.
Integrierte OCR liest Scans und bildbasierte Dokumente.
Schneller oder präziser Tabellenmodus, je nach Tempo und Genauigkeit.
Strukturiertes DoclingDocument-JSON, das direkt in RAG-Pipelines passt.

Funktionen

Eine API für jedes Dokument

Breite Formatunterstützung

Verarbeite PDFs, Word, PowerPoint, Excel, CSV, HTML und gängige Bildtypen über einen Endpunkt, ohne Aufwand pro Format.
OCR für Scans und Bilder

Fortschrittliche OCR liest gescannte Dokumente und Bilder mit Text und macht daraus sauberen, durchsuchbaren Inhalt.
Tabellen extrahieren

Erkenne und rekonstruiere Tabellenstruktur aus Berichten und Tabellen, mit einem schnellen oder einem präzisen Modus.
Mehrere Ausgabeformate

Erhalte Ergebnisse als Markdown, JSON, HTML, HTML pro Seite, reinen Text oder DocTags. Wähle eines oder fordere mehrere zugleich an.
Bilder mitnehmen

Extrahiere eingebettete Bilder neben dem Text, damit Abbildungen und Diagramme bei der Konvertierung nicht verloren gehen.
Strukturiertes JSON für RAG

Erhalte ein strukturiertes DoclingDocument-Schema mit Texten, Tabellen, Bildern und Seiten, bereit zum Chunken und Embedden.

Formate

Viel Eingabe rein, saubere Struktur raus

Sende die Dokumente, die du schon hast. Erhalte das Format zurück, das deine Anwendung braucht, ob Markdown für ein LLM oder strukturiertes JSON für eine Pipeline.

Eingabeformate

Dokumente

.pdf
.docx
.pptx
.xlsx
.csv
.md
.html

Bilder

.png
.jpg
.tiff
.bmp
.webp

Spezial

.vtt
.xml
.json

Ausgabeformate

Markdown
JSON
HTML
HTML pro Seite
Reiner Text
DocTags

Anwendungsfälle

Gebaut für dokumentintensive Workflows

RAG-Pipelines

Wandle Quelldokumente in sauberen, strukturierten Text, damit deine Retrieval- und Embedding-Schritte mit guter Eingabe starten.
Rechnungsverarbeitung

Automatisiere das Auslesen von Rechnungen und Belegen, samt der Tabellen mit Positionen und Summen.
Digitalisierung

Mach aus gescannten Archiven und alten PDFs durchsuchbaren, maschinenlesbaren Text für Indexierung und Wiederverwendung.
Daten extrahieren

Hol Tabellen aus Finanzberichten und Tabellenkalkulationen in strukturierte Formate, die deine Systeme verarbeiten können.
Wissenschaftliche Arbeit

Verarbeite Forschungsarbeiten mit Formeln, Zitaten und Abbildungen intakt, bereit für Analyse oder Zusammenfassung.
Barrierefreiheit

Mach bildbasierte Dokumente zugänglich, indem du den Text extrahierst, sodass Screenreader und Suche ihn erreichen.

Documents API, kurz erklärt

Welche Dateiformate kann ich senden?

PDFs, Microsoft-Office-Dateien (Word, PowerPoint, Excel), CSV, Markdown, HTML und gängige Bildtypen wie PNG, JPEG, TIFF, BMP und WebP. Auch Spezialformate wie VTT, XML und JSON sind möglich.

Welche Ausgabeformate bekomme ich zurück?

Markdown (Standard), strukturiertes JSON im DoclingDocument-Schema, HTML, HTML pro Seite, reinen Text oder DocTags. Du kannst eines oder mehrere in einem Aufruf anfordern.

Kann es gescannte Dokumente lesen?

Ja. Integrierte OCR wandelt gescannte Dokumente und Bilder mit Text in saubere, strukturierte Ausgabe. Du kannst OCR auch erzwingen, wenn eine PDF eine unzuverlässige Textebene hat.

Werden Tabellen erkannt?

Ja. Die Tabellenerkennung ist standardmäßig aktiv, mit einem schnellen Modus und einem präzisen Modus für komplexe Layouts. Eingebettete Bilder lassen sich mit exportieren.

Bleiben meine Daten privat, und wo wird verarbeitet?

Die Documents API läuft auf der privaten, in der EU gehosteten Infrastruktur von GreenPT mit erneuerbarer Energie. Deine Dateien werden zur Erfüllung deiner Anfrage verarbeitet und nie zum Training verwendet.

Zur API-Doku →

Jetzt loslegen

Mach jedes Dokument KI-fertig .

Sende deine erste Datei in Minuten. Wandle PDFs, Scans und Office-Dokumente in sauberen, strukturierten Inhalt auf privater, in der EU gehosteter Infrastruktur.

Zur API-Doku cURL, JavaScript, Python (opens in a new tab) Kontakt aufnehmen

100% erneuerbar
EU-gehostet
DSGVO-konform

Mach aus jedem Dokument KI-fertige Inhalte

Dokument-KI ohne Kompromisse bei den Daten

Breite Formatunterstützung

OCR für Scans und Bilder

Tabellen extrahieren

Mehrere Ausgabeformate

Bilder mitnehmen

Strukturiertes JSON für RAG

Eingabeformate

Ausgabeformate

RAG-Pipelines

Rechnungsverarbeitung

Digitalisierung

Daten extrahieren

Wissenschaftliche Arbeit

Barrierefreiheit

Documents API, kurz erklärt

Mach jedes Dokument KI-fertig .