Dochive o como extraer datos de un PDF

Dochive o como extraer datos de un PDF

Los ficheros en formato PDF se han caracterizado por la imposibilidad de alterar su contenido fácilmente. Hasta ahora la única forma sencilla de extraer los datos que contienen un fichero en formato PDF era mediante la utilización de la versión profesional de Acrobat que es de pago y que muchos bolsillos no se pueden permitir o buscar por la red alguna web que realice la conversión del fichero en PDF a otros formatos como son las hojas de cálculo o cualquier otro formato con el que poder trabajar.

Para solventar este problema los hermanos Duncan Pardo, Charles y Edward han desarrollado una aplicación de código libre. Charles Duncan es editor de un modesto periódico, Raleigh Public Record  y para buscar información para sus artículos encontraba siempre el mismo problema, estaba en formato PDF y no podía obtener las imágenes, gráficos o textos que necesitaba para su publicación. Gracias a su hermano, Edward, que es programador informático crearon la solución a sus problemas, la aplicación DocHive.

La aplicación desarrollada por los hermanos Duncan Pardo, DocHive, tiene un funcionamiento simple convierte el documento PDF en un archivo de imagen mediante ImageMagick  y XML divide el contenido del fichero original en secciones más pequeñas que se almacenan en su propio archivo de imagen. Con el texto del fichero en PDF, Dochive, dispone de un sistema de reconocimiento óptico de caracteres (OCR) que lee el texto contenido en el fichero y lo graba en un fichero de texto CSV.

De esta forma tan sencilla, dispondremos gracias a DocHive, de varios ficheros con el contenido gráfico del fichero (imágenes, logotipos, gráficos…etc) y por otro lado un fichero de texto CSV con el texto del fichero original. Toda una gran ayuda para editores de periódicos, revistas o escritores que necesiten información procedente de ficheros en formato PDF.

Oficialmente DocHive ha sido lanzado el pasado 28 de febrero y presentado por sus creadores, los hermanos Duncan Pardo, en la conferencia NICAR de Louisville Kentucky. El código fuente del programa podemos localizarlo en GitHub . También se va a crear en el servidor una Wiki para que todos los usuarios de DocHive puedan compartir plantillas, documentación o cualquier información sobre la aplicación. Lo que todavía no se ha aclarado por parte de los creadores de la aplicación ha sido la elección del tipo de licencia que van a utilizar en la aplicación, sin duda alguna se trata de una buena herramienta con grandes posibilidades de crecimiento.

Tags de búsquedas:

extraer datos de un pdf,extraer datos pdf,extraer datos de pdf,como extraer datos de un pdf,extraer datos de pdf con php,como obtener datos de un pdf,extraer fotos de pdf en android,extraer medidas archivo dxf,extraer informacion de varios pdf,extraer datos de un archivo pdf,extraer imagenes de un pdf con php,extraer imagenes de un PDF apk,extraer imágenes de pdf en android,extraer datos fichero pdf,extraer imagenes de pdf en andriod

Noticias relacionadas »

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Invertir en criptomonedas: »

 

Cómo comprar bitcoin

Invertir y comprar Bitcoin y otras altcoins es más fácil de lo que crees.

1) Si sólo quieres comprar Bitcoin, Ethereum o Litecoin como inversión, tu opción es Coinbase

2) Si quieres probar con otras criptomonedas tu opción es Binance

3) Cualquier duda escríbeme con total libertad al formulario de contacto para resolver dudas: https://www.pedroventura.com/contacto/

¡Comparte este artículo! »

  • carlos hernandez (3 días)
    Hola, hay alguna funcion k sirva para saber el correo…
  • steven (2 semanas)
    tengo un problema me sale este error cuando pongo data:…
  • lewis rod (3 semanas)
    https://t.me/joinchat/Hs_yUFG_xDVJ-PS3cWEYAw este es el enlace me equivoque.
  • lewis rod (3 semanas)
    https://t.me/joinchat/Hs_yUBDhw2Uk7D3D835GJQ grupo de telegram latino sudamericano peru, colombia, ecuador, chile,…
  • Harol (4 semanas)
    Todo el mundo da gracias porque no lo ha hecho,…
  • Renzo (4 semanas)
    Excelente.. Simple y efectivo. Gracias

Suscríbete al newsletter »

Proporciona tu correo electrónico a continuación y recibe las últimas noticias! Funciona con Feedburner de Google

Archivo »

Leer entrada anterior
PHP 5.4.0, finalmente al alcance de todos

En los últimos días el PHP development team sacó finalmente a la luz la nueva y tan esperada versión PHP 5.4.0, de la camada...

Cerrar