using IronPdf; // Disable local disk access or cross-origin requests Installation.EnableWebSecurity = true; // Instantiate Renderer var renderer = new ChromePdfRenderer(); // Create a PDF from a HTML string using C# var pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1>"); // Export to a file or Stream pdf.SaveAs("output.pdf"); // Advanced Example with HTML Assets // Load external html assets: Images, CSS and JavaScript. // An optional BasePath 'C:\site\assets\' is set as the file location to load assets from var myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", @"C:\site\assets\"); myAdvancedPdf.SaveAs("html-with-assets.pdf");

USO DE IRONPDF

Cómo extraer datos de un PDF en C#

Name: IronPDF
Brand: Iron Software
Availability: InStock
Rating: 4.87 (307 reviews)

Chipego Kalinda

26 de junio, 2022

Actualizado 21 de enero, 2024

Introducción

Tu empresa está gastando demasiado en suscripciones anuales para seguridad y cumplimiento de PDF. Considera IronSecureDoc, que ofrece soluciones para gestionar servicios SaaS como la firma digital, redacción, encriptación y protección, todo por un pago único. Aprende más sobre IronSecureDoc

Extraer datos de los PDF es crucial para ahorrar tiempo en la introducción manual. Este artículo explica cómo los desarrolladores pueden usar la biblioteca IronPDF para extraer texto e imágenes de documentos PDF.

Cómo extraer datos de un PDF en C#

Descargar Extract Data from PDF biblioteca C#
Crear un nuevo proyecto en Visual Studio
Instale la biblioteca en su proyecto
Extraer los datos de páginas específicas y extraer específicos de PDF
Ver los datos de salida de un documento PDF

IronPDF: C# Biblioteca PDF

IronPDF es una biblioteca .NET que se puede usar para crear, editar y convertir archivos PDF. Proporciona una API fácil de usar para que los desarrolladores la utilicen en sus aplicaciones. Es una de las bibliotecas más populares para crear, editar y convertir archivos PDF en todo el mundo. Con IronPDF, puede crear una solución sencilla y rápida para PDF. Su texto se personalizará para cada documento, su diseño se configurará para facilitar la lectura, y sus gráficos se diseñarán con la ayuda del programa .NET acompañante.

La biblioteca IronPDF tiene una función fantástica para extraer datos de archivos PDF. En este artículo se explica cómo extraer datos con IronPDF. En primer lugar, es necesario crear o abrir un proyecto C#. Pasemos a la siguiente sección.

Crear o Abrir un Proyecto en C# en Visual Studio

Este tutorial recomienda el uso de la última versión de Visual Studio.

Una vez abierto Visual Studio, siga los pasos que se indican a continuación para crear un nuevo proyecto C#. Si ya existe un proyecto que desea utilizar, omita estos pasos y pase directamente a la siguiente sección.

Abrir Visual Studio
Haga clic en el botón "Crear un nuevo proyecto".

Interfaz de inicio de Visual Studio
Seleccione la "Aplicación de consola C#" de las plantillas.

Crear un nuevo proyecto
Asigne un nombre al Proyecto y haga clic en el botón Siguiente.
Seleccione un .NET Framework según los requisitos de su proyecto y haga clic en el botón Crear.

Selección de .NET Framework

Visual Studio generará ahora un nuevo proyecto C# .NET.

Instalar la biblioteca IronPDF

La biblioteca IronPDF puede instalarse de varias formas.

Uso de la consola del gestor de paquetes

Abra la Consola del Administrador de Paquetes yendo a Herramientas > Administrador de paquetes NuGet > Consola del administrador de paquetes.
Ejecute el siguiente comando:

Install-Package IronPdf

Cómo extraer datos de PDFs en C#, Figura 4: Progreso de la instalación en la pestaña de la Consola del Administrador de Paquetes

Progreso de la instalación en la pestaña de la consola del administrador de paquetes

Después de la instalación, verá la dependencia de IronPDF en la sección dependencies del Solution Explorer, como se muestra a continuación.

Cómo extraer datos de PDF en C#, Figura 5: Referenciar el paquete IronPdf en el Explorador de Soluciones

Referencia el paquete IronPdf en el Explorador de Soluciones

Uso del gestor de paquetes NuGet

Otra forma de instalar la biblioteca IronPDF es utilizando la interfaz de usuario integrada del gestor de paquetes NuGet de Visual Studio.

Vaya a Herramientas desde el menú principal. Pase el ratón sobre "NuGet Package Manager" en el menú desplegable y seleccione la "Solución NuGet Package Manager".

Navegar al Administrador de Paquetes NuGet
Se abrirá la ventana del Gestor de paquetes NuGet. Ve a la pestaña Explorar, escribe IronPdf en la búsqueda y presiona Enter.
Seleccione IronPDF en los resultados de la búsqueda y haga clic en el botón "Instalar" para comenzar la instalación.

Instale el paquete IronPdf desde el Administrador de paquetes NuGet

Extraer datos de archivos PDF

Echemos un vistazo al siguiente código sobre cómo extraer datos utilizando IronPDF:

//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;

//  Extracting Image and Text content from Pdf Documents

// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

//Get all text to put in a search index
string AllText = pdf.ExtractAllText();

//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();

//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
    int PageNumber = index + 1;
    string Text = pdf.ExtractTextFromPage(index);
    IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
    ///...
}

//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;

//  Extracting Image and Text content from Pdf Documents

// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

//Get all text to put in a search index
string AllText = pdf.ExtractAllText();

//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();

//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
    int PageNumber = index + 1;
    string Text = pdf.ExtractTextFromPage(index);
    IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
    ///...
}

'Rendering PDF documents to Images or Thumbnails
Imports IronPdf
Imports System.Drawing

'  Extracting Image and Text content from Pdf Documents

' open a 128 bit encrypted PDF
Private PdfDocument As using

'Get all text to put in a search index
Private AllText As String = pdf.ExtractAllText()

'Get all Images
Private AllImages As IEnumerable(Of System.Drawing.Image) = pdf.ExtractAllImages()

'Or even find the precise text and images for each page in the document
For index = 0 To pdf.PageCount - 1
	Dim PageNumber As Integer = index + 1
	Dim Text As String = pdf.ExtractTextFromPage(index)
	Dim Images As IEnumerable(Of System.Drawing.Image) = pdf.ExtractImagesFromPage(index)
	'''...
Next index

$vbLabelText $csharpLabel

En primer lugar, el método FromFile se utiliza para cargar el documento PDF de entrada en el programa. Se proporciona un archivo PDF cifrado que necesita una contraseña para acceder al archivo. Luego, los datos de texto se extraen usando el método ExtractAllText para sacar todos los datos de texto en una variable String. Desde aquí, PdfDocument ofrece mucha funcionalidad: exportarlo como texto plano, volcarlo en un archivo TXT, almacenarlo en una base de datos, etc.

IronPDF puede extraer texto de tablas PDF para su inclusión en uno o más archivos CSV.

La línea 11 utiliza el método ExtractAllImages para extraer todas las imágenes incrustadas del documento PDF.

IronPDF también puede extraer contenido de páginas PDF específicas. Las líneas de código restantes en el ejemplo anterior demuestran cómo utilizar los métodos ExtractTextFromPage y ExtractImagesFromPage para obtener el texto y las imágenes de un subconjunto de páginas. Ambos métodos aceptan un argumento entero que representa el índice de base cero de la página deseada.

Conclusión

IronPDF permite a los desarrolladores extraer texto e imágenes de archivos PDF en tan solo una línea de código, utilizando ExtractAllText y ExtractAllImages para extraer instantáneamente todo el contenido de un archivo PDF. Alternativamente, llamar a ExtractAllImage o ExtractAllText recuperará texto e imágenes de solo una página PDF en particular. El código de ejemplo anterior mostraba cómo utilizar ambos métodos para leer texto e imágenes de una serie de páginas.

Además, IronPDF también es capaz de renderizar gráficos en PDFs, agregar códigos de barras, mejorar la seguridad con contraseñas y añadir marcas de agua, e incluso gestionar formularios PDF de forma programática.

IronPDF es completamente gratuito para el desarrollo. Si bien se requiere pago para uso comercial, puede acceder a la prueba gratuita de IronPDF para producción sin ningún pago.

Adquiere la suite completa de las bibliotecas de documentos de Iron Software por el precio de dos IronPDF Lite Licenses.

Descarga IronPDF ahora para comenzar a extraer datos de PDFs hoy mismo.

Chipego Kalinda

Chatea con el equipo de ingeniería ahora

Ingeniero de software

Chipego tiene una habilidad natural para escuchar que le ayuda a comprender los problemas de los clientes y a ofrecer soluciones inteligentes. Se unió al equipo de Iron Software en 2023, después de estudiar una licenciatura en Tecnología de la Información. IronPDF e IronOCR son los dos productos en los que Chipego se ha centrado, pero su conocimiento de todos los productos crece día a día, a medida que encuentra nuevas formas de ayudar a los clientes. Disfruta de lo colaborativa que es la vida en Iron Software, con miembros del equipo de toda la empresa que aportan su variada experiencia para contribuir a soluciones eficaces e innovadoras. Cuando Chipego está lejos de su escritorio, a menudo se le puede encontrar disfrutando de un buen libro o jugando al fútbol.

< ANTERIOR
C# Extraer Texto De PDF (Tutorial De Ejemplo De Código)

SIGUIENTE >
Cómo añadir números de página en PDF usando C#