Extrae automáticamente los datos clave de una factura con un agente IA (Workflow n8n gratuito + Vídeo + Tutorial + Descarga)

Esta guía paso a paso te muestra cómo automatizar la extracción de datos clave desde facturas PDF usando un agente IA preconfigurado en n8n. En segundos, convierte cualquier factura en un registro limpio y estructurado, sin entrada manual ni procesamiento tedioso. Recibirás un workflow listo para usar que puedes copiar, probar gratis y personalizar según tu proceso contable o de análisis de datos — sin necesidad de programar.
Este workflow gratuito de n8n muestra cómo un agente IA puede extraer automáticamente los datos clave de una factura PDF (número, fecha, total, proveedor, IBAN…) y enviarlos directamente a una base de datos en Google Sheets.

Hack’celeration: Los secretos de automatización sin código que los expertos nunca comparten — nosotros sí.

Logotipo de Qonto, solución bancaria online para profesionales.
Logotipo de Gymlib, plataforma de fitness y bienestar para empresas.
Solución de firma electrónica segura.
Plataforma todo en uno para la gestión de gastos.
Comparador de viajes para vuelos, trenes y hoteles.
Plataforma online para reservar restaurantes.

Cómo te ayuda la automatización con n8n Extrae automáticamente los datos clave de una factura en PDF con un agente IA — sin trabajo manual

¿Sigues perdiendo tiempo copiando manualmente los datos de tus facturas en PDF cada día? Esta automatización con n8n pone fin a eso.

Este workflow listo para usar utiliza un Agente IA para analizar automáticamente cada factura y extraer los datos clave: número, fecha, importe, cliente, proveedor, IBAN, líneas de productos y mucho más.

Solo tienes que descargar el workflow plug-and-play, conectarlo a tu bandeja de entrada, Google Drive o ERP, y en segundos los datos de la factura se envían automáticamente donde los necesites: Google Sheets, Notion, Airtable, tu CRM o software contable.

El resultado: sin entrada manual, sin errores de copia y pega, y con una base de datos limpia y estructurada — mientras ahorras horas cada semana.

Para facilitarte el proceso, el workflow viene completamente documentado y listo para usar con notas paso a paso directamente en n8n. Entenderás al instante cómo el Agente IA procesa y extrae los datos de la factura.

También incluye un tutorial en vídeo completo y una guía detallada paso a paso para ayudarte en la configuración y automatización. Puedes usarlo tal cual o adaptarlo fácilmente a tu stack.

El objetivo: automatizar la extracción de datos de facturas sin escribir una sola línea de código, con total flexibilidad para conectar el Agente IA a Gmail, Google Drive, tu ERP o herramientas contables.

Vídeo Tutorial – Extrae Datos de Facturas con un Agente IA en n8n

Guía Paso a Paso del Workflow en n8n: Extracción de Datos de Factura con Agente IA + Capturas

Este vídeo muestra cómo preparar tu servidor Linux para un entorno n8n autoalojado. Incluye todos los pasos previos para automatizar la extracción de datos de facturas PDF usando un agente IA, incluyendo la instalación de pdftotext.

Requisito: Usar una Instancia n8n Autoalojada con Acceso al Terminal

Para ejecutar este workflow, necesitas una instancia autoalojada de n8n con acceso al terminal. Esta configuración permite ejecutar localmente el comando que extrae el texto de tus facturas PDF.

La automatización depende de la herramienta de línea de comandos pdftotext, que convierte cada factura en PDF a texto plano para que el agente IA pueda analizar y estructurar los datos (número de factura, fecha, importe, IBAN, cliente, etc.).

  • Si tienes experiencia con el terminal, puedes instalar pdftotext manualmente usando la librería Poppler.
  • Si no, pregunta a ChatGPT cómo instalar pdftotext según tu sistema (Ubuntu, Mac, Docker…).
  • ¿Necesitas ayuda? Contáctanos a través del formulario y te guiaremos paso a paso.

Importante: Este paso es esencial — sin él, tu agente IA no podrá leer ni extraer los datos de tus facturas.

Este vídeo muestra cómo lanzar manualmente tu workflow en n8n usando el nodo Manual Trigger. Es el primer paso para probar la extracción automática de datos de una factura PDF con IA.

Paso 1: Lanzar el Workflow (Disparo Manual)

Este paso inicial te permite probar manualmente la automatización de lectura de facturas PDF. El nodo Manual Trigger en n8n es ideal para simular paso a paso el proceso y verificar que todos los campos (monto, proveedor, IBAN, etc.) se extraen correctamente.

Es la mejor forma de confirmar que tu agente IA analiza cada archivo y recupera la información adecuada antes de añadir un disparador real como nuevo correo recibido, archivo añadido a Drive o llamada API.

➡️ Configuración:

  • Tipo de disparador: Manual Trigger
  • Uso: Lanzar manualmente el workflow para probar una o varias facturas PDF

Inicia tu primera prueba haciendo clic en “Ejecutar Workflow” desde el editor de n8n.

En este paso, el workflow detecta automáticamente las facturas PDF almacenadas en una carpeta de Google Drive. El video muestra cómo configurar el nodo Google Drive para filtrar y recuperar los archivos correctos.

Paso 2: Recuperar facturas PDF desde Google Drive

Este paso escanea automáticamente una carpeta específica en tu Google Drive para recuperar todas las facturas PDF listas para ser procesadas. Cada archivo será analizado individualmente por el agente IA.

💡 Consejo: Para encontrar el ID de tu carpeta de Drive, abre la carpeta en tu navegador — el ID aparece en la URL después de /folders/.

➡️ Configuración:

  • Módulo: Google Drive
  • Operación: Listar todos los archivos de una carpeta
  • Carpeta: ID de la carpeta que contiene tus facturas PDF
  • Autenticación: Tu cuenta de Google Drive conectada a n8n
Este paso muestra cómo el nodo Loop en n8n procesa cada factura PDF individualmente. Permite una ejecución fluida y aislada de cada archivo en la automatización, evitando errores o solapamientos.

Paso 3: Procesar Cada Factura con un Nodo Loop

Este paso utiliza un nodo Loop en n8n para procesar cada factura PDF de forma individual. Así se garantiza que cada archivo se analice por separado, evitando solapamientos de datos o colisiones en el flujo de trabajo.

Al recorrer la lista de archivos, tu automatización trata cada factura como un elemento independiente: desde la extracción del texto hasta el análisis con IA y la estructuración de los datos.

➡️ Configuración:

  • Módulo: Loop
  • Operación: Iterar sobre la lista de archivos PDF
  • Objetivo: Garantizar que cada factura se procese de forma aislada
En este paso se muestra cómo descargar automáticamente una factura en PDF desde Google Drive usando el nodo Google Drive en n8n. La configuración permite recuperar el archivo objetivo para su procesamiento en el flujo.

Paso 4: Descargar la Factura PDF desde Google Drive

Este paso descarga automáticamente el archivo PDF de la factura desde una carpeta de tu Google Drive, utilizando el ID de archivo dinámico recuperado durante el paso anterior del bucle.

➡️ Configuración:

  • Módulo: Google Drive
  • Operación: Descargar archivo
  • Archivo: ID de archivo dinámico (desde el bucle)
  • Autenticación: Tu cuenta de Google conectada en n8n

💡 También puedes sustituir Google Drive por un módulo de Gmail, un webhook o la API de tu ERP si las facturas provienen de otra fuente.

Este vídeo muestra cómo guardar el archivo PDF de la factura en tu servidor local utilizando el nodo ReadWriteFileFromDisk. Es un paso clave para preparar el archivo para la extracción automática de texto vía terminal.

Paso 5: Guardar la Factura PDF en el Disco Local

Este paso permite guardar el archivo PDF de la factura en tu servidor local utilizando el nodo ReadWriteFileFromDisk. Es una etapa esencial para preparar el documento para la extracción automática de texto mediante un comando de terminal.

➡️ Configuración:

  • Módulo: ReadWriteFileFromDisk
  • Acción: Escribir archivo
  • Ruta: /tmp/doc.pdf (o ajusta según tu configuración)
  • Contenido: Archivo PDF descargado desde Google Drive

💡 Este paso es obligatorio si quieres ejecutar comandos como pdftotext en tu servidor para extraer los datos de la factura.

Este paso utiliza un nodo Terminal en n8n para ejecutar el comando pdftotext y extraer el contenido en texto plano de la factura PDF. ⚠️ Requiere una instancia autoalojada de n8n.

Paso 6: Extraer el texto de la factura (PDFtoText)

En este paso utilizamos el comando pdftotext (incluido en la biblioteca Poppler) para convertir la factura en PDF en un archivo de texto plano. Este formato es esencial para que el agente IA pueda analizar y estructurar correctamente los datos extraídos de la factura.

➡️ Comando ejecutado: pdftotext /tmp/doc.pdf /tmp/doc.txt

Este método permite extraer todos los campos visibles de una factura: número, fecha, líneas de producto, IVA, importe total, IBAN y más.

¿No sabes cómo instalar pdftotext? Pregúntale a ChatGPT según tu sistema (Ubuntu, Docker, Mac…) o contáctanos.

El nodo Read File from Disk se utiliza para cargar el contenido en texto plano extraído de una factura PDF. Este paso es esencial para preparar los datos que serán procesados por el agente IA.

Paso 7: Leer el archivo de texto extraído

En este paso, utilizamos el nodo Read File from Disk para cargar el contenido en texto plano previamente extraído de la factura PDF. Estos datos se enviarán al agente IA para su análisis y extracción estructurada.

➡️ Parámetros:

  • Ruta del archivo: /tmp/doc.txt
  • Codificación: UTF-8

Este paso es fundamental para garantizar que el agente IA reciba una entrada limpia y legible, lo que permite un procesamiento preciso.

El nodo Information Extractor utiliza un agente IA basado en OpenAI para analizar el texto de la factura PDF y extraer automáticamente los datos clave: número de factura, fecha, importe, nombre del cliente, y más.

Paso 8: Extraer datos de la factura PDF con un agente IA

Este paso utiliza el nodo Information Extractor con un agente IA basado en OpenAI para analizar el contenido en texto plano de la factura PDF y extraer automáticamente los datos clave: número de factura, fecha, importe, cliente, proveedor, IBAN, y más.

➡️ Configuración recomendada:

  • Modelo: GPT-4 o GPT-3.5 Turbo
  • Input: Texto plano extraído (desde /tmp/doc.txt)
  • Output: Objeto JSON con los campos estructurados

💡 Puedes personalizar los campos extraídos según tus necesidades: dirección del cliente, número de pedido, base imponible, impuestos, etc.

Este vídeo muestra el agente IA ejecutándose dentro de n8n: el prompt se genera dinámicamente y la respuesta se devuelve como un JSON limpio y estructurado, listo para ser reutilizado en tu workflow.

Paso 9: Analizar la factura con un agente IA (GPT-4o)

El texto limpio se envía a un agente IA impulsado por GPT-4o, utilizando LangChain. Este agente está entrenado para extraer automáticamente todos los datos clave de la factura: número de factura, fecha, cliente, proveedor, subtotal, total con impuestos, IBAN, líneas de producto y más.

➡️ Prompt: Salida en formato JSON con campos estandarizados, optimizada para Google Sheets (por ejemplo, usando comillas simples para evitar problemas de formato de números).

El nodo Set permite organizar los campos extraídos de una factura: número, fecha, importe total, cliente… Cada dato se formatea para integrarse fácilmente en Google Sheets, Notion u otra herramienta.

Paso 10: Estructurar los datos extraídos con el nodo Set

En esta etapa, se utiliza el nodo Set para organizar los campos clave de la factura: número de factura, fecha, importe total, cliente, etc. Cada campo se limpia y se formatea para integrarse sin errores en Google Sheets, Notion o cualquier otra herramienta.

➡️ Consejo: Puedes renombrar los campos, transformar los formatos (por ejemplo, fechas o importes) y preparar fácilmente los datos para exportarlos o almacenarlos.

Este paso final del workflow muestra la exportación automática de los datos extraídos de la factura a Google Sheets. Cada columna (importe, cliente, fecha…) se mapea manualmente para una entrada limpia y estructurada.

Paso 11: Insertar los datos estructurados en Google Sheets

La información extraída de la factura (importe, fecha, cliente, proveedor, IBAN, etc.) se añade automáticamente como una nueva fila en una hoja de cálculo de Google Sheets. Cada columna corresponde a un campo claramente definido.

➡️ Conexión: Google Sheets conectado a tu cuenta

Puedes sustituir fácilmente esta salida por Notion, Airtable, un ERP, una herramienta de facturación o una base de datos SQL según tus necesidades.

Paso final: el servidor elimina automáticamente los archivos PDF temporales relacionados con la factura después de la extracción y el almacenamiento. Esto ayuda a mantener un entorno limpio y estable en cada iteración.

Paso 12: Limpiar el servidor

Para mantener tu servidor limpio y evitar un uso innecesario del almacenamiento, este paso elimina automáticamente los archivos temporales creados durante el procesamiento de la factura (/tmp/doc.pdf y /tmp/doc.txt).

➡️ Comando: rm -rf /tmp/doc.pdf /tmp/doc.txt

Puedes personalizar esta ruta según tu sistema de almacenamiento o si deseas archivar los archivos en otra ubicación.

Por qué la extracción automática de datos de facturas revoluciona tu gestión administrativa

Gestionar de forma eficiente tus facturas entrantes en tu CRM, ERP o Google Sheets es clave para automatizar la parte administrativa y evitar errores de introducción manual. Revisar facturas en PDF manualmente consume tiempo, genera errores y ralentiza los procesos contables o de seguimiento.

Problemas comunes con la introducción manual de datos de facturas:
  • Información faltante o incorrecta (número de factura, fecha, importe, cliente, etc.).
  • Pérdida de tiempo abriendo cada PDF y copiando los datos manualmente.
  • Riesgo de duplicados o montos mal introducidos.
  • Dificultad para centralizar los datos y utilizarlos para el seguimiento.
Ventajas de extraer los datos de las facturas automáticamente:
  • Información de facturación estructurada y estandarizada al instante.
  • Ahorro considerable de tiempo en tareas administrativas.
  • Integración fluida con Google Sheets, Notion, Airtable o herramientas contables.
  • Activación automática de acciones (notificaciones, archivado, seguimiento, sincronización contable, etc.).

Al automatizar la extracción de datos desde facturas en PDF con un agente IA, eliminas tareas repetitivas, mejoras la precisión de los datos y aumentas tu productividad. Este escenario en n8n se convierte en un recurso potente para escalar tu gestión administrativa sin esfuerzo.