Skip to content

Documents API

Mach aus jedem Dokument KI-fertige Inhalte

Hol Text, Tabellen und Bilder aus PDFs, Office-Dateien und Bildern über eine API. Fortschrittliche OCR macht aus gescannten Dokumenten sauberes Markdown, JSON oder HTML, bereit für RAG-Pipelines, Digitalisierung und Rechnungsverarbeitung.

Warum GreenPT

Dokument-KI ohne Kompromisse bei den Daten

Die meisten Dokument-APIs verlangen, dass du sensible Dateien an Infrastruktur sendest, die du nicht kontrollierst. GreenPT verarbeitet deine Dokumente auf privater, in der EU gehosteter Infrastruktur mit erneuerbarer Energie, und trainiert nie auf deinen Daten.

  • In der EU gehostet und DSGVO-konform, sensible Dokumente bleiben in Europa.

  • Privat by Design: deine Dateien werden nie zum Training verwendet.

  • Breite Formatabdeckung in einer API, von PDFs über Tabellen bis Bilder.

  • Integrierte OCR liest Scans und bildbasierte Dokumente.

  • Schneller oder präziser Tabellenmodus, je nach Tempo und Genauigkeit.

  • Strukturiertes DoclingDocument-JSON, das direkt in RAG-Pipelines passt.

Funktionen

Eine API für jedes Dokument

  • Breite Formatunterstützung

    Verarbeite PDFs, Word, PowerPoint, Excel, CSV, HTML und gängige Bildtypen über einen Endpunkt, ohne Aufwand pro Format.

  • OCR für Scans und Bilder

    Fortschrittliche OCR liest gescannte Dokumente und Bilder mit Text und macht daraus sauberen, durchsuchbaren Inhalt.

  • Tabellen extrahieren

    Erkenne und rekonstruiere Tabellenstruktur aus Berichten und Tabellen, mit einem schnellen oder einem präzisen Modus.

  • Mehrere Ausgabeformate

    Erhalte Ergebnisse als Markdown, JSON, HTML, HTML pro Seite, reinen Text oder DocTags. Wähle eines oder fordere mehrere zugleich an.

  • Bilder mitnehmen

    Extrahiere eingebettete Bilder neben dem Text, damit Abbildungen und Diagramme bei der Konvertierung nicht verloren gehen.

  • Strukturiertes JSON für RAG

    Erhalte ein strukturiertes DoclingDocument-Schema mit Texten, Tabellen, Bildern und Seiten, bereit zum Chunken und Embedden.

Formate

Viel Eingabe rein, saubere Struktur raus

Sende die Dokumente, die du schon hast. Erhalte das Format zurück, das deine Anwendung braucht, ob Markdown für ein LLM oder strukturiertes JSON für eine Pipeline.

Eingabeformate

Dokumente

  • .pdf
  • .docx
  • .pptx
  • .xlsx
  • .csv
  • .md
  • .html

Bilder

  • .png
  • .jpg
  • .tiff
  • .bmp
  • .webp

Spezial

  • .vtt
  • .xml
  • .json

Ausgabeformate

  • Markdown
  • JSON
  • HTML
  • HTML pro Seite
  • Reiner Text
  • DocTags

Anwendungsfälle

Gebaut für dokumentintensive Workflows

  • RAG-Pipelines

    Wandle Quelldokumente in sauberen, strukturierten Text, damit deine Retrieval- und Embedding-Schritte mit guter Eingabe starten.

  • Rechnungsverarbeitung

    Automatisiere das Auslesen von Rechnungen und Belegen, samt der Tabellen mit Positionen und Summen.

  • Digitalisierung

    Mach aus gescannten Archiven und alten PDFs durchsuchbaren, maschinenlesbaren Text für Indexierung und Wiederverwendung.

  • Daten extrahieren

    Hol Tabellen aus Finanzberichten und Tabellenkalkulationen in strukturierte Formate, die deine Systeme verarbeiten können.

  • Wissenschaftliche Arbeit

    Verarbeite Forschungsarbeiten mit Formeln, Zitaten und Abbildungen intakt, bereit für Analyse oder Zusammenfassung.

  • Barrierefreiheit

    Mach bildbasierte Dokumente zugänglich, indem du den Text extrahierst, sodass Screenreader und Suche ihn erreichen.

Documents API, kurz erklärt

Welche Dateiformate kann ich senden?

PDFs, Microsoft-Office-Dateien (Word, PowerPoint, Excel), CSV, Markdown, HTML und gängige Bildtypen wie PNG, JPEG, TIFF, BMP und WebP. Auch Spezialformate wie VTT, XML und JSON sind möglich.

Welche Ausgabeformate bekomme ich zurück?

Markdown (Standard), strukturiertes JSON im DoclingDocument-Schema, HTML, HTML pro Seite, reinen Text oder DocTags. Du kannst eines oder mehrere in einem Aufruf anfordern.

Kann es gescannte Dokumente lesen?

Ja. Integrierte OCR wandelt gescannte Dokumente und Bilder mit Text in saubere, strukturierte Ausgabe. Du kannst OCR auch erzwingen, wenn eine PDF eine unzuverlässige Textebene hat.

Werden Tabellen erkannt?

Ja. Die Tabellenerkennung ist standardmäßig aktiv, mit einem schnellen Modus und einem präzisen Modus für komplexe Layouts. Eingebettete Bilder lassen sich mit exportieren.

Bleiben meine Daten privat, und wo wird verarbeitet?

Die Documents API läuft auf der privaten, in der EU gehosteten Infrastruktur von GreenPT mit erneuerbarer Energie. Deine Dateien werden zur Erfüllung deiner Anfrage verarbeitet und nie zum Training verwendet.

Zur API-Doku →

Jetzt loslegen

Mach jedes Dokument KI-fertig .

Sende deine erste Datei in Minuten. Wandle PDFs, Scans und Office-Dokumente in sauberen, strukturierten Inhalt auf privater, in der EU gehosteter Infrastruktur.

  • 100% erneuerbar
  • EU-gehostet
  • DSGVO-konform