Como extraer imágenes desde un archivo PDF en Linux

miércoles, septiembre 16, 2015 Publicado por: Oscar Meza


Anteriormente hable de la herramienta "pdftotext" que extrae el texto de un archivo pdf creando una archivo editable, el problema es que si hay imágenes en el archivo pdf estas son ignoradas, si necesitas extraer las imágenes el comando que debes utilizar es pdfimages, este comando viene por defecto instalado en la mayoría de las distros de Linux, si no lo tienes instalado lo puedes hacer con el comando siguiente.

~ $ sudo apt-get install poppler-utils

El paquete "poppler-utils" contiene entre otras herramientas a "pdfimages", ahora que ya lo tienes instalado para extraer las imágenes utilizamos el siguiente comando.

~ $ pdfimages archivopdf.pdf imagen

El comando anterior extraerá todas las imágenes que encuentre en el archivo pdf, usando "imagen" como prefijo, de esta forma si encontró dos imágenes, las extraerá nombrándolas de la siguiente forma imagen-001.ppm, imagen-002.ppm e imagen-003.ppm. Si quieres las imágenes en formato jpg agrega la opción -j como se muestra en el ejemplo siguiente.

~ $ pdfimages -j archivopdf.pdf imagen

0 comentarios: