Samenvatting:

  • Voor sommige PDF's die worden geüpload in het DAM is het mogelijk om de tekst uit de PDF te extraheren en doorzoekbaar te maken bij de presentatie.
  • Om de tekst te extraheren moet de tekst reeds in de PDF beschikbaar zijn. 

Tekst extraheren uit een PDF

Binnen Memorix Maior worden digitale bestanden geüpload in het DAM. Voor sommige PDF’s is het

mogelijk om de tekst uit de PDF te extraheren en doorzoekbaar te maken bij de presentatie. Om de tekst te extraheren moet de tekst reeds in de PDF beschikbaar zijn. Dit kan op twee manieren:

  1. Het gaat om een tekstgebaseerde PDF. Dit betekent dat een digitaal tekstbestand (bijvoorbeeld Microsoft Word) is omgezet naar PDF.
  2. Het gaat om een eerder ge-ocr’de tekst. Een fysieke tekst is gescand en daarna met een eigen programma ge-ocr’d. (N.B. Memorix Maior bevat geen ocr-functionaliteit). 

Het is dus niet bij alle PDF’s mogelijk de tekst te extraheren. Dit kun je controleren door de originele PDF te openen en de tekst te selecteren. Selecteer je de regels tekst, dan kan Memorix Maior de tekst extraheren. Selecteer je de hele pagina, dan is dit niet mogelijk.