Documents API
Maak van elk document AI-klare inhoud
Haal tekst, tabellen en afbeeldingen uit PDF's, Office-bestanden en afbeeldingen via één API. Geavanceerde OCR maakt van gescande documenten schone Markdown, JSON of HTML, klaar voor RAG-pipelines, digitalisering en factuurverwerking.
Waarom GreenPT
Document-AI zonder concessies aan je data
De meeste document-APIs vragen je gevoelige bestanden te sturen naar infrastructuur waar je geen grip op hebt. GreenPT verwerkt je documenten op private, in de EU gehoste infrastructuur op groene stroom, en traint nooit op jouw data.
-
EU-gehost en AVG-proof, zodat gevoelige documenten in Europa blijven.
-
Privé van opzet: je bestanden worden nooit gebruikt om modellen te trainen.
-
Brede formaatdekking in één API, van PDF's tot spreadsheets tot afbeeldingen.
-
Ingebouwde OCR leest scans en documenten op basis van afbeeldingen.
-
Snelle of nauwkeurige tabelmodus, afgestemd op snelheid versus precisie.
-
Gestructureerde DoclingDocument-JSON die direct in RAG-pipelines past.
Mogelijkheden
Eén API voor elk document
-
Brede formaatondersteuning
Verwerk PDF's, Word, PowerPoint, Excel, CSV, HTML en gangbare afbeeldingstypes via één endpoint, zonder gedoe per formaat.
-
OCR voor scans en afbeeldingen
Geavanceerde OCR leest gescande documenten en afbeeldingen met tekst, en maakt er schone, doorzoekbare inhoud van.
-
Tabellen eruit halen
Herken en reconstrueer tabelstructuur uit rapporten en spreadsheets, met een snelle modus of een nauwkeurige modus.
-
Meerdere uitvoerformaten
Krijg resultaten als Markdown, JSON, HTML, HTML per pagina, platte tekst of DocTags. Kies er één of vraag er meerdere tegelijk op.
-
Afbeeldingen meenemen
Haal ingesloten afbeeldingen mee naast de tekst, zodat figuren en diagrammen niet verloren gaan bij de conversie.
-
Gestructureerde JSON voor RAG
Ontvang een gestructureerd DoclingDocument-schema met teksten, tabellen, afbeeldingen en pagina’s, klaar om te chunken en te embedden.
Formaten
Veel input erin, schone structuur eruit
Stuur de documenten die je al hebt. Krijg het formaat terug dat je applicatie nodig heeft, of dat nu Markdown voor een LLM is of gestructureerde JSON voor een pipeline.
Invoerformaten
Documenten
- .docx
- .pptx
- .xlsx
- .csv
- .md
- .html
Afbeeldingen
- .png
- .jpg
- .tiff
- .bmp
- .webp
Speciaal
- .vtt
- .xml
- .json
Uitvoerformaten
- Markdown
- JSON
- HTML
- HTML per pagina
- Platte tekst
- DocTags
Toepassingen
Gebouwd voor documentintensieve workflows
-
RAG-pipelines
Zet brondocumenten om in schone, gestructureerde tekst, zodat je retrieval- en embeddingstappen met goede input beginnen.
-
Factuurverwerking
Automatiseer het uitlezen van facturen en bonnen, inclusief de tabellen met regels en totalen.
-
Digitalisering
Maak van gescande archieven en oude PDF's doorzoekbare, machineleesbare tekst voor indexering en hergebruik.
-
Data eruit halen
Til tabellen uit financiële rapporten en spreadsheets naar gestructureerde formaten die je systemen kunnen verwerken.
-
Wetenschappelijk werk
Verwerk onderzoekspapers met hun formules, citaten en figuren intact, klaar voor analyse of samenvatting.
-
Toegankelijkheid
Maak documenten op basis van afbeeldingen toegankelijk door de tekst eruit te halen, zodat schermlezers en zoek erbij kunnen.
Documents API, kort samengevat
Welke bestandsformaten kan ik sturen?
PDF's, Microsoft Office-bestanden (Word, PowerPoint, Excel), CSV, Markdown, HTML en gangbare afbeeldingstypes zoals PNG, JPEG, TIFF, BMP en WebP. Speciale formaten als VTT, XML en JSON kunnen ook.
Welke uitvoerformaten krijg ik terug?
Markdown (de standaard), gestructureerde JSON in het DoclingDocument-schema, HTML, HTML per pagina, platte tekst of DocTags. Je kunt er één of meerdere in één call opvragen.
Kan het gescande documenten lezen?
Ja. Ingebouwde OCR zet gescande documenten en afbeeldingen met tekst om in schone, gestructureerde uitvoer. Je kunt OCR ook forceren wanneer een PDF een onbetrouwbare tekstlaag heeft.
Worden tabellen herkend?
Ja. Tabelherkenning staat standaard aan, met een snelle modus en een nauwkeurige modus voor complexe lay-outs. Ingesloten afbeeldingen kunnen mee worden geëxporteerd.
Blijft mijn data privé, en waar wordt het verwerkt?
De Documents API draait op de private, in de EU gehoste infrastructuur van GreenPT op groene stroom. Je bestanden worden verwerkt om je verzoek uit te voeren en nooit gebruikt om modellen te trainen.
Naar de API-docs →Begin met bouwen
Maak elk document AI-klaar .
Stuur je eerste bestand binnen enkele minuten. Zet PDF's, scans en Office-documenten om in schone, gestructureerde inhoud op private, EU-gehoste infrastructuur.
- 100% groene stroom
- EU-gehost
- AVG-proof