Extrae automáticamente los datos clave de una factura con un agente IA (Workflow n8n gratuito + Vídeo + Tutorial + Descarga)
Hack’celeration: Los secretos de automatización sin código que los expertos nunca comparten — nosotros sí.






Cómo te ayuda la automatización con n8n Extrae automáticamente los datos clave de una factura en PDF con un agente IA — sin trabajo manual
¿Sigues perdiendo tiempo copiando manualmente los datos de tus facturas en PDF cada día? Esta automatización con n8n pone fin a eso.
Este workflow listo para usar utiliza un Agente IA para analizar automáticamente cada factura y extraer los datos clave: número, fecha, importe, cliente, proveedor, IBAN, líneas de productos y mucho más.
Solo tienes que descargar el workflow plug-and-play, conectarlo a tu bandeja de entrada, Google Drive o ERP, y en segundos los datos de la factura se envían automáticamente donde los necesites: Google Sheets, Notion, Airtable, tu CRM o software contable.
El resultado: sin entrada manual, sin errores de copia y pega, y con una base de datos limpia y estructurada — mientras ahorras horas cada semana.
Para facilitarte el proceso, el workflow viene completamente documentado y listo para usar con notas paso a paso directamente en n8n. Entenderás al instante cómo el Agente IA procesa y extrae los datos de la factura.
También incluye un tutorial en vídeo completo y una guía detallada paso a paso para ayudarte en la configuración y automatización. Puedes usarlo tal cual o adaptarlo fácilmente a tu stack.
El objetivo: automatizar la extracción de datos de facturas sin escribir una sola línea de código, con total flexibilidad para conectar el Agente IA a Gmail, Google Drive, tu ERP o herramientas contables.
Vídeo Tutorial – Extrae Datos de Facturas con un Agente IA en n8n
Guía Paso a Paso del Workflow en n8n: Extracción de Datos de Factura con Agente IA + Capturas
pdftotext
.
Requisito: Usar una Instancia n8n Autoalojada con Acceso al Terminal
Para ejecutar este workflow, necesitas una instancia autoalojada de n8n con acceso al terminal. Esta configuración permite ejecutar localmente el comando que extrae el texto de tus facturas PDF.
La automatización depende de la herramienta de línea de comandos pdftotext
, que convierte cada factura en PDF a texto plano para que el agente IA pueda analizar y estructurar los datos (número de factura, fecha, importe, IBAN, cliente, etc.).
- Si tienes experiencia con el terminal, puedes instalar
pdftotext
manualmente usando la librería Poppler. - Si no, pregunta a ChatGPT cómo instalar
pdftotext
según tu sistema (Ubuntu, Mac, Docker…). - ¿Necesitas ayuda? Contáctanos a través del formulario y te guiaremos paso a paso.
Importante: Este paso es esencial — sin él, tu agente IA no podrá leer ni extraer los datos de tus facturas.
Paso 1: Lanzar el Workflow (Disparo Manual)
Este paso inicial te permite probar manualmente la automatización de lectura de facturas PDF. El nodo Manual Trigger en n8n es ideal para simular paso a paso el proceso y verificar que todos los campos (monto, proveedor, IBAN, etc.) se extraen correctamente.
Es la mejor forma de confirmar que tu agente IA analiza cada archivo y recupera la información adecuada antes de añadir un disparador real como nuevo correo recibido, archivo añadido a Drive o llamada API.
➡️ Configuración:
- Tipo de disparador: Manual Trigger
- Uso: Lanzar manualmente el workflow para probar una o varias facturas PDF
Inicia tu primera prueba haciendo clic en “Ejecutar Workflow” desde el editor de n8n.
Paso 2: Recuperar facturas PDF desde Google Drive
Este paso escanea automáticamente una carpeta específica en tu Google Drive para recuperar todas las facturas PDF listas para ser procesadas. Cada archivo será analizado individualmente por el agente IA.
💡 Consejo: Para encontrar el ID de tu carpeta de Drive, abre la carpeta en tu navegador — el ID aparece en la URL después de /folders/
.
➡️ Configuración:
- Módulo: Google Drive
- Operación: Listar todos los archivos de una carpeta
- Carpeta: ID de la carpeta que contiene tus facturas PDF
- Autenticación: Tu cuenta de Google Drive conectada a n8n
Paso 3: Procesar Cada Factura con un Nodo Loop
Este paso utiliza un nodo Loop en n8n para procesar cada factura PDF de forma individual. Así se garantiza que cada archivo se analice por separado, evitando solapamientos de datos o colisiones en el flujo de trabajo.
Al recorrer la lista de archivos, tu automatización trata cada factura como un elemento independiente: desde la extracción del texto hasta el análisis con IA y la estructuración de los datos.
➡️ Configuración:
- Módulo: Loop
- Operación: Iterar sobre la lista de archivos PDF
- Objetivo: Garantizar que cada factura se procese de forma aislada
Paso 4: Descargar la Factura PDF desde Google Drive
Este paso descarga automáticamente el archivo PDF de la factura desde una carpeta de tu Google Drive, utilizando el ID de archivo dinámico recuperado durante el paso anterior del bucle.
➡️ Configuración:
- Módulo: Google Drive
- Operación: Descargar archivo
- Archivo: ID de archivo dinámico (desde el bucle)
- Autenticación: Tu cuenta de Google conectada en n8n
💡 También puedes sustituir Google Drive por un módulo de Gmail, un webhook o la API de tu ERP si las facturas provienen de otra fuente.
ReadWriteFileFromDisk
. Es un paso clave para preparar el archivo para la extracción automática de texto vía terminal.
Paso 5: Guardar la Factura PDF en el Disco Local
Este paso permite guardar el archivo PDF de la factura en tu servidor local utilizando el nodo ReadWriteFileFromDisk
. Es una etapa esencial para preparar el documento para la extracción automática de texto mediante un comando de terminal.
➡️ Configuración:
- Módulo: ReadWriteFileFromDisk
- Acción: Escribir archivo
- Ruta:
/tmp/doc.pdf
(o ajusta según tu configuración) - Contenido: Archivo PDF descargado desde Google Drive
💡 Este paso es obligatorio si quieres ejecutar comandos como pdftotext
en tu servidor para extraer los datos de la factura.
pdftotext
y extraer el contenido en texto plano de la factura PDF. ⚠️ Requiere una instancia autoalojada de n8n.
Paso 6: Extraer el texto de la factura (PDFtoText)
En este paso utilizamos el comando pdftotext
(incluido en la biblioteca Poppler) para convertir la factura en PDF en un archivo de texto plano. Este formato es esencial para que el agente IA pueda analizar y estructurar correctamente los datos extraídos de la factura.
➡️ Comando ejecutado: pdftotext /tmp/doc.pdf /tmp/doc.txt
Este método permite extraer todos los campos visibles de una factura: número, fecha, líneas de producto, IVA, importe total, IBAN y más.
¿No sabes cómo instalar pdftotext? Pregúntale a ChatGPT según tu sistema (Ubuntu, Docker, Mac…) o contáctanos.
Paso 7: Leer el archivo de texto extraído
En este paso, utilizamos el nodo Read File from Disk para cargar el contenido en texto plano previamente extraído de la factura PDF. Estos datos se enviarán al agente IA para su análisis y extracción estructurada.
➡️ Parámetros:
- Ruta del archivo:
/tmp/doc.txt
- Codificación: UTF-8
Este paso es fundamental para garantizar que el agente IA reciba una entrada limpia y legible, lo que permite un procesamiento preciso.
Paso 8: Extraer datos de la factura PDF con un agente IA
Este paso utiliza el nodo Information Extractor con un agente IA basado en OpenAI para analizar el contenido en texto plano de la factura PDF y extraer automáticamente los datos clave: número de factura, fecha, importe, cliente, proveedor, IBAN, y más.
➡️ Configuración recomendada:
- Modelo: GPT-4 o GPT-3.5 Turbo
- Input: Texto plano extraído (desde
/tmp/doc.txt
) - Output: Objeto JSON con los campos estructurados
💡 Puedes personalizar los campos extraídos según tus necesidades: dirección del cliente, número de pedido, base imponible, impuestos, etc.
Paso 9: Analizar la factura con un agente IA (GPT-4o)
El texto limpio se envía a un agente IA impulsado por GPT-4o, utilizando LangChain. Este agente está entrenado para extraer automáticamente todos los datos clave de la factura: número de factura, fecha, cliente, proveedor, subtotal, total con impuestos, IBAN, líneas de producto y más.
➡️ Prompt: Salida en formato JSON con campos estandarizados, optimizada para Google Sheets (por ejemplo, usando comillas simples para evitar problemas de formato de números).
Paso 10: Estructurar los datos extraídos con el nodo Set
En esta etapa, se utiliza el nodo Set para organizar los campos clave de la factura: número de factura, fecha, importe total, cliente, etc. Cada campo se limpia y se formatea para integrarse sin errores en Google Sheets, Notion o cualquier otra herramienta.
➡️ Consejo: Puedes renombrar los campos, transformar los formatos (por ejemplo, fechas o importes) y preparar fácilmente los datos para exportarlos o almacenarlos.
Paso 11: Insertar los datos estructurados en Google Sheets
La información extraída de la factura (importe, fecha, cliente, proveedor, IBAN, etc.) se añade automáticamente como una nueva fila en una hoja de cálculo de Google Sheets. Cada columna corresponde a un campo claramente definido.
➡️ Conexión: Google Sheets conectado a tu cuenta
Puedes sustituir fácilmente esta salida por Notion, Airtable, un ERP, una herramienta de facturación o una base de datos SQL según tus necesidades.
Paso 12: Limpiar el servidor
Para mantener tu servidor limpio y evitar un uso innecesario del almacenamiento, este paso elimina automáticamente los archivos temporales creados durante el procesamiento de la factura (/tmp/doc.pdf
y /tmp/doc.txt
).
➡️ Comando: rm -rf /tmp/doc.pdf /tmp/doc.txt
Puedes personalizar esta ruta según tu sistema de almacenamiento o si deseas archivar los archivos en otra ubicación.
Por qué la extracción automática de datos de facturas revoluciona tu gestión administrativa
Gestionar de forma eficiente tus facturas entrantes en tu CRM, ERP o Google Sheets es clave para automatizar la parte administrativa y evitar errores de introducción manual. Revisar facturas en PDF manualmente consume tiempo, genera errores y ralentiza los procesos contables o de seguimiento.
Problemas comunes con la introducción manual de datos de facturas:- Información faltante o incorrecta (número de factura, fecha, importe, cliente, etc.).
- Pérdida de tiempo abriendo cada PDF y copiando los datos manualmente.
- Riesgo de duplicados o montos mal introducidos.
- Dificultad para centralizar los datos y utilizarlos para el seguimiento.
- Información de facturación estructurada y estandarizada al instante.
- Ahorro considerable de tiempo en tareas administrativas.
- Integración fluida con Google Sheets, Notion, Airtable o herramientas contables.
- Activación automática de acciones (notificaciones, archivado, seguimiento, sincronización contable, etc.).
Al automatizar la extracción de datos desde facturas en PDF con un agente IA, eliminas tareas repetitivas, mejoras la precisión de los datos y aumentas tu productividad. Este escenario en n8n se convierte en un recurso potente para escalar tu gestión administrativa sin esfuerzo.