Skip to content

Latest commit

 

History

History
114 lines (77 loc) · 4.6 KB

README_sp.md

File metadata and controls

114 lines (77 loc) · 4.6 KB


¡Convierte tus documentos en datos!

English | Français | Portuguese | 中文

  • Parsr es una herramienta de parseo, extracción y limpieza de documentos (imágenes, pdf, docx, eml) de huella mínima, que genera datos organizados y usables en formato, JSON, Markdown (MD), CSV/Pandas DF o TXT.

  • Provee información limpia y estructurada a analistas de datos y desarrolladores para aplicaciones que van desde ingreso de datos, automatización de análisis de documentos, archivos y muchas más.

  • Actualmente, Parsr puede realizar limpieza de documentos, regeneración de jerarquías (palabras, líneas, párrafos), detección de *títulos, tablas, listas, tablas de contenido, número de páginas, cabeceras, pie de página y más. Aquí hay un listado de todas las funcionalidades.

Tabla de Contenidos

Primeros Pasos

Instalación

-- La guía de instalación avanzada está disponible aquí --

La forma más rápida de instalar y ejecutar la API de Parsr es a través de la imágen de Docker:

docker pull axarev/parsr

Si también quieres instalar la Interfaz Gráfica para enviar documentos y visualizar resultados:

docker pull axarev/parsr-ui-localhost

Nota: Parsr también puede ser instalado sin utilizar containers de Docker. El procedimiento a seguir está documentado en la guía de instalación.

Uso

-- La guía de uso avanzado está disponible aquí --

Para ejecutar la API:

docker run -p 3001:3001 axarev/parsr

Este comando lanzará la API en http://localhost:3001.
Consulta la documentación de uso de la API.

  1. Para acceder al cliente python de la API de Parsr:

    pip install parsr-client

    Para probar la Jupyter Notebook usando el cliente de Python, dirígete a la demo jupyter.

  2. Para utilizar la interfaz gráfica de Parsr (la API debe estar lanzada previamente):

    docker run -t -p 8080:80 axarev/parsr-ui-localhost:latest

    Luego podrás acceder desde http://localhost:8080.

Consulta la documentación de configuración para comprender las opciones configurables en la interfaz gráfica.

El uso a través de la API y el uso por línea de comandos están documentados en la guía de uso avanzado.

Documentación

Toda la documentación está disponible aquí.

Contribuir

Para contribuir con el proyecto, está disponible la guía de contribución.

Licencias de Terceros

Licencias de librerías de terceros para sus dependencias:

  1. QPDF: Apache http://qpdf.sourceforge.net
  2. ImageMagick: Apache 2.0 https://imagemagick.org/script/license.php
  3. Pdfminer.six: MIT https://github.com/pdfminer/pdfminer.six/blob/master/LICENSE
  4. PDF.js: Apache 2.0 https://github.com/mozilla/pdf.js
  5. Tesseract: Apache 2.0 https://github.com/tesseract-ocr/tesseract
  6. Camelot: MIT https://github.com/camelot-dev/camelot
  7. MuPDF (Optional dependency): AGPL https://mupdf.com/license.html
  8. Pandoc (Optional dependency): GPL https://github.com/jgm/pandoc

Licencia

Copyright 2020 AXA Group Operations S.A.
Licenciado bajo Apache 2.0 (ver licencia).