Skip to content

Documents API

Maak van elk document AI-klare inhoud

Haal tekst, tabellen en afbeeldingen uit PDF's, Office-bestanden en afbeeldingen via één API. Geavanceerde OCR maakt van gescande documenten schone Markdown, JSON of HTML, klaar voor RAG-pipelines, digitalisering en factuurverwerking.

Waarom GreenPT

Document-AI zonder concessies aan je data

De meeste document-APIs vragen je gevoelige bestanden te sturen naar infrastructuur waar je geen grip op hebt. GreenPT verwerkt je documenten op private, in de EU gehoste infrastructuur op groene stroom, en traint nooit op jouw data.

  • EU-gehost en AVG-proof, zodat gevoelige documenten in Europa blijven.

  • Privé van opzet: je bestanden worden nooit gebruikt om modellen te trainen.

  • Brede formaatdekking in één API, van PDF's tot spreadsheets tot afbeeldingen.

  • Ingebouwde OCR leest scans en documenten op basis van afbeeldingen.

  • Snelle of nauwkeurige tabelmodus, afgestemd op snelheid versus precisie.

  • Gestructureerde DoclingDocument-JSON die direct in RAG-pipelines past.

Mogelijkheden

Eén API voor elk document

  • Brede formaatondersteuning

    Verwerk PDF's, Word, PowerPoint, Excel, CSV, HTML en gangbare afbeeldingstypes via één endpoint, zonder gedoe per formaat.

  • OCR voor scans en afbeeldingen

    Geavanceerde OCR leest gescande documenten en afbeeldingen met tekst, en maakt er schone, doorzoekbare inhoud van.

  • Tabellen eruit halen

    Herken en reconstrueer tabelstructuur uit rapporten en spreadsheets, met een snelle modus of een nauwkeurige modus.

  • Meerdere uitvoerformaten

    Krijg resultaten als Markdown, JSON, HTML, HTML per pagina, platte tekst of DocTags. Kies er één of vraag er meerdere tegelijk op.

  • Afbeeldingen meenemen

    Haal ingesloten afbeeldingen mee naast de tekst, zodat figuren en diagrammen niet verloren gaan bij de conversie.

  • Gestructureerde JSON voor RAG

    Ontvang een gestructureerd DoclingDocument-schema met teksten, tabellen, afbeeldingen en pagina’s, klaar om te chunken en te embedden.

Formaten

Veel input erin, schone structuur eruit

Stuur de documenten die je al hebt. Krijg het formaat terug dat je applicatie nodig heeft, of dat nu Markdown voor een LLM is of gestructureerde JSON voor een pipeline.

Invoerformaten

Documenten

  • .pdf
  • .docx
  • .pptx
  • .xlsx
  • .csv
  • .md
  • .html

Afbeeldingen

  • .png
  • .jpg
  • .tiff
  • .bmp
  • .webp

Speciaal

  • .vtt
  • .xml
  • .json

Uitvoerformaten

  • Markdown
  • JSON
  • HTML
  • HTML per pagina
  • Platte tekst
  • DocTags

Toepassingen

Gebouwd voor documentintensieve workflows

  • RAG-pipelines

    Zet brondocumenten om in schone, gestructureerde tekst, zodat je retrieval- en embeddingstappen met goede input beginnen.

  • Factuurverwerking

    Automatiseer het uitlezen van facturen en bonnen, inclusief de tabellen met regels en totalen.

  • Digitalisering

    Maak van gescande archieven en oude PDF's doorzoekbare, machineleesbare tekst voor indexering en hergebruik.

  • Data eruit halen

    Til tabellen uit financiële rapporten en spreadsheets naar gestructureerde formaten die je systemen kunnen verwerken.

  • Wetenschappelijk werk

    Verwerk onderzoekspapers met hun formules, citaten en figuren intact, klaar voor analyse of samenvatting.

  • Toegankelijkheid

    Maak documenten op basis van afbeeldingen toegankelijk door de tekst eruit te halen, zodat schermlezers en zoek erbij kunnen.

Documents API, kort samengevat

Welke bestandsformaten kan ik sturen?

PDF's, Microsoft Office-bestanden (Word, PowerPoint, Excel), CSV, Markdown, HTML en gangbare afbeeldingstypes zoals PNG, JPEG, TIFF, BMP en WebP. Speciale formaten als VTT, XML en JSON kunnen ook.

Welke uitvoerformaten krijg ik terug?

Markdown (de standaard), gestructureerde JSON in het DoclingDocument-schema, HTML, HTML per pagina, platte tekst of DocTags. Je kunt er één of meerdere in één call opvragen.

Kan het gescande documenten lezen?

Ja. Ingebouwde OCR zet gescande documenten en afbeeldingen met tekst om in schone, gestructureerde uitvoer. Je kunt OCR ook forceren wanneer een PDF een onbetrouwbare tekstlaag heeft.

Worden tabellen herkend?

Ja. Tabelherkenning staat standaard aan, met een snelle modus en een nauwkeurige modus voor complexe lay-outs. Ingesloten afbeeldingen kunnen mee worden geëxporteerd.

Blijft mijn data privé, en waar wordt het verwerkt?

De Documents API draait op de private, in de EU gehoste infrastructuur van GreenPT op groene stroom. Je bestanden worden verwerkt om je verzoek uit te voeren en nooit gebruikt om modellen te trainen.

Naar de API-docs →

Begin met bouwen

Maak elk document AI-klaar .

Stuur je eerste bestand binnen enkele minuten. Zet PDF's, scans en Office-documenten om in schone, gestructureerde inhoud op private, EU-gehoste infrastructuur.

  • 100% groene stroom
  • EU-gehost
  • AVG-proof