Documents API
Mach aus jedem Dokument KI-fertige Inhalte
Hol Text, Tabellen und Bilder aus PDFs, Office-Dateien und Bildern über eine API. Fortschrittliche OCR macht aus gescannten Dokumenten sauberes Markdown, JSON oder HTML, bereit für RAG-Pipelines, Digitalisierung und Rechnungsverarbeitung.
Warum GreenPT
Dokument-KI ohne Kompromisse bei den Daten
Die meisten Dokument-APIs verlangen, dass du sensible Dateien an Infrastruktur sendest, die du nicht kontrollierst. GreenPT verarbeitet deine Dokumente auf privater, in der EU gehosteter Infrastruktur mit erneuerbarer Energie, und trainiert nie auf deinen Daten.
-
In der EU gehostet und DSGVO-konform, sensible Dokumente bleiben in Europa.
-
Privat by Design: deine Dateien werden nie zum Training verwendet.
-
Breite Formatabdeckung in einer API, von PDFs über Tabellen bis Bilder.
-
Integrierte OCR liest Scans und bildbasierte Dokumente.
-
Schneller oder präziser Tabellenmodus, je nach Tempo und Genauigkeit.
-
Strukturiertes DoclingDocument-JSON, das direkt in RAG-Pipelines passt.
Funktionen
Eine API für jedes Dokument
-
Breite Formatunterstützung
Verarbeite PDFs, Word, PowerPoint, Excel, CSV, HTML und gängige Bildtypen über einen Endpunkt, ohne Aufwand pro Format.
-
OCR für Scans und Bilder
Fortschrittliche OCR liest gescannte Dokumente und Bilder mit Text und macht daraus sauberen, durchsuchbaren Inhalt.
-
Tabellen extrahieren
Erkenne und rekonstruiere Tabellenstruktur aus Berichten und Tabellen, mit einem schnellen oder einem präzisen Modus.
-
Mehrere Ausgabeformate
Erhalte Ergebnisse als Markdown, JSON, HTML, HTML pro Seite, reinen Text oder DocTags. Wähle eines oder fordere mehrere zugleich an.
-
Bilder mitnehmen
Extrahiere eingebettete Bilder neben dem Text, damit Abbildungen und Diagramme bei der Konvertierung nicht verloren gehen.
-
Strukturiertes JSON für RAG
Erhalte ein strukturiertes DoclingDocument-Schema mit Texten, Tabellen, Bildern und Seiten, bereit zum Chunken und Embedden.
Formate
Viel Eingabe rein, saubere Struktur raus
Sende die Dokumente, die du schon hast. Erhalte das Format zurück, das deine Anwendung braucht, ob Markdown für ein LLM oder strukturiertes JSON für eine Pipeline.
Eingabeformate
Dokumente
- .docx
- .pptx
- .xlsx
- .csv
- .md
- .html
Bilder
- .png
- .jpg
- .tiff
- .bmp
- .webp
Spezial
- .vtt
- .xml
- .json
Ausgabeformate
- Markdown
- JSON
- HTML
- HTML pro Seite
- Reiner Text
- DocTags
Anwendungsfälle
Gebaut für dokumentintensive Workflows
-
RAG-Pipelines
Wandle Quelldokumente in sauberen, strukturierten Text, damit deine Retrieval- und Embedding-Schritte mit guter Eingabe starten.
-
Rechnungsverarbeitung
Automatisiere das Auslesen von Rechnungen und Belegen, samt der Tabellen mit Positionen und Summen.
-
Digitalisierung
Mach aus gescannten Archiven und alten PDFs durchsuchbaren, maschinenlesbaren Text für Indexierung und Wiederverwendung.
-
Daten extrahieren
Hol Tabellen aus Finanzberichten und Tabellenkalkulationen in strukturierte Formate, die deine Systeme verarbeiten können.
-
Wissenschaftliche Arbeit
Verarbeite Forschungsarbeiten mit Formeln, Zitaten und Abbildungen intakt, bereit für Analyse oder Zusammenfassung.
-
Barrierefreiheit
Mach bildbasierte Dokumente zugänglich, indem du den Text extrahierst, sodass Screenreader und Suche ihn erreichen.
Documents API, kurz erklärt
Welche Dateiformate kann ich senden?
PDFs, Microsoft-Office-Dateien (Word, PowerPoint, Excel), CSV, Markdown, HTML und gängige Bildtypen wie PNG, JPEG, TIFF, BMP und WebP. Auch Spezialformate wie VTT, XML und JSON sind möglich.
Welche Ausgabeformate bekomme ich zurück?
Markdown (Standard), strukturiertes JSON im DoclingDocument-Schema, HTML, HTML pro Seite, reinen Text oder DocTags. Du kannst eines oder mehrere in einem Aufruf anfordern.
Kann es gescannte Dokumente lesen?
Ja. Integrierte OCR wandelt gescannte Dokumente und Bilder mit Text in saubere, strukturierte Ausgabe. Du kannst OCR auch erzwingen, wenn eine PDF eine unzuverlässige Textebene hat.
Werden Tabellen erkannt?
Ja. Die Tabellenerkennung ist standardmäßig aktiv, mit einem schnellen Modus und einem präzisen Modus für komplexe Layouts. Eingebettete Bilder lassen sich mit exportieren.
Bleiben meine Daten privat, und wo wird verarbeitet?
Die Documents API läuft auf der privaten, in der EU gehosteten Infrastruktur von GreenPT mit erneuerbarer Energie. Deine Dateien werden zur Erfüllung deiner Anfrage verarbeitet und nie zum Training verwendet.
Zur API-Doku →Jetzt loslegen
Mach jedes Dokument KI-fertig .
Sende deine erste Datei in Minuten. Wandle PDFs, Scans und Office-Dokumente in sauberen, strukturierten Inhalt auf privater, in der EU gehosteter Infrastruktur.
- 100% erneuerbar
- EU-gehostet
- DSGVO-konform