USO DE IRONPDF

C# Extraer Texto De PDF (Tutorial De Ejemplo De Código)

Los archivos PDF (Formato de Documento Portátil) desempeñan un papel vital en innumerables industrias, permitiendo a las empresas compartir, almacenar y gestionar documentos de manera segura. Para los desarrolladores, trabajar con PDFs a menudo implica crear, leer, convertir y extraer contenido para satisfacer las necesidades de los clientes. Extraer texto de archivos PDF es esencial para tareas como el análisis de datos, la indexación de documentos, la migración de contenido o la habilitación de funciones de accesibilidad. Las bibliotecas modernas como IronPDF facilitan estas tareas más que nunca, ofreciendo herramientas poderosas para manipular archivos PDF con un esfuerzo mínimo.

Esta guía se centra en uno de los requisitos más comunes: extraer texto de un PDF en C#. Le guiaremos a través de la configuración de un proyecto en Visual Studio, la instalación de IronPDF y su uso para realizar la extracción de texto con ejemplos de código concisos. En el camino, destacaremos las características robustas de IronPDF, incluidas su capacidad para crear, manipular y convertir archivos PDF usando .NET. Ya sea que estés creando aplicaciones con muchos documentos o simplemente necesites un manejo eficiente de PDF, este tutorial te pondrá en marcha.

1. Características de IronPDF

IronPDF es un sólido conversor de PDF que puede realizar casi cualquier operación que pueda realizar un navegador. Crear, leer y manipular documentos PDF es sencillo con la biblioteca .NET para desarrolladores. IronPDF convierte documentos HTML a PDF utilizando el motor de Chrome. IronPDF es compatible con HTML, ASPX, Razor HTML y MVC View, entre otros componentes web. La aplicación Microsoft .NET es compatible con IronPDF (tanto las aplicaciones web de ASP.NET como las aplicaciones tradicionales de Windows). IronPDF también puede utilizarse para crear un documento PDF visualmente atractivo.

Podemos hacer un documento PDF a partir de HTML5, JavaScript, CSS e imágenes con IronPDF. Además, los archivos pueden tener cabeceras y pies de página. Gracias a IronPDF, podemos leer fácilmente un documento PDF. IronPDF también cuenta con un completo motor de conversión de PDF y un potente conversor de HTML a PDF que puede manejar documentos PDF.

  • Creación de PDF: Genera PDFs a partir de HTML, JavaScript, CSS, imágenes o URLs. Agregue encabezados, pies de página, marcadores, marcas de agua y otros elementos personalizados para mejorar el diseño.
  • Conversión de HTML a PDF: Convierte archivos HTML, Razor/MVC Views y CSS de tipo de medios directamente en formato PDF.
  • Características interactivas del PDF: Crear, completar y enviar formularios PDF interactivos.
  • Extracción de Texto e Imágenes: Extrae texto o imágenes de documentos PDF existentes para el procesamiento de datos o reutilización.
  • Manipulación de documentos: Unir, dividir y reordenar páginas en archivos PDF nuevos o existentes.
  • Manejo de Imágenes y Páginas: Rasterizar páginas PDF a imágenes y convertir imágenes a formato PDF.
  • Trabajar con credenciales de inicio de sesión personalizadas: IronPDF es capaz de crear un documento a partir de una URL. También admite credenciales de inicio de sesión de red personalizadas, agentes de usuario, proxies, cookies, encabezados HTTP y variables de formulario para iniciar sesión detrás de formularios de inicio de sesión HTML.
  • Búsqueda y Accesibilidad: Busca texto dentro de documentos PDF y asegúrate de que cumplan con los estándares de accesibilidad.
  • Versatilidad de conversión: Transforma PDFs en otros formatos como HTML y trabaja con archivos CSS para generar PDFs.
  • Funcionalidad independiente: Opera de manera autónoma sin requerir Adobe Acrobat u otras herramientas de terceros adicionales.

2. Creación de un nuevo proyecto en Visual Studio

Abra el software Visual Studio y vaya al menú Archivo. Seleccione "Nuevo proyecto" y, a continuación, "Aplicación de consola". En este artículo, vamos a utilizar una aplicación de consola para generar documentos PDF.

C# Extraer Texto de PDF (Ejemplo de Código Tutorial), Figura 1: Crear un nuevo proyecto en Visual Studio Crear un nuevo proyecto en Visual Studio

Introduzca el nombre del proyecto y seleccione la ruta del archivo en el cuadro de texto correspondiente. A continuación, haz clic en el botón Crear y selecciona el .NET Framework requerido, como en la captura de pantalla a continuación.

C# Extraer texto de PDF (Ejemplo de código tutorial), Figura 2: Configurar nuevo proyecto en Visual Studio Configurar nuevo proyecto en Visual Studio

El proyecto de Visual Studio ahora generará la estructura para la aplicación seleccionada y, si has seleccionado la aplicación de consola, de Windows o web, se abrirá el archivo program.cs donde puedes ingresar el código y construir/ejecutar la aplicación.

C# Extraer Texto de PDF (Ejemplo de Código Tutorial), Figura 3: Seleccionando .NET Core Seleccionando .NET Core

A continuación, podemos añadir la biblioteca para probar el código.

3. Instalar la biblioteca IronPDF

La biblioteca IronPDF puede descargarse e instalarse de cuatro maneras.

Estos son:

  • Utilización de Visual Studio.
  • Uso de la línea de comandos de Visual Studio.
  • Descarga directa desde el sitio web de NuGet.
  • Descarga directa desde el sitio web de IronPDF.

3.1 Utilización de Visual Studio

El software Visual Studio proporciona la opción NuGet Package Manager para instalar el paquete directamente en la solución. La siguiente captura de pantalla muestra cómo abrir el Gestor de paquetes NuGet.

Extraer texto de PDF con C# (Ejemplo de código Tutorial), Figura 4: Archivo program.cs de Visual Studio Archivo program.cs de Visual Studio

Proporciona el cuadro de búsqueda para mostrar la lista de paquetes del sitio web de NuGet. En el gestor de paquetes, tenemos que buscar la palabra clave "IronPdf", como en la siguiente captura de pantalla.

C# Extraer Texto de PDF (Ejemplo de Código Tutorial), Figura 5: Administrador de Paquetes NuGet Administrador de Paquetes NuGet

En la imagen anterior, podemos ver la lista de los elementos de búsqueda relacionados. Debemos seleccionar la opción necesaria para instalar el paquete en la solución.

3.2 Uso de la línea de comandos de Visual Studio

En Visual Studio, vaya a Herramientas > Gestor de paquetes NuGet > Consola del gestor de paquetes

Introduzca la siguiente línea en la pestaña de la consola del gestor de paquetes:

Install-Package IronPdf

Ahora el paquete se descargará/instalará en el proyecto actual y estará listo para su uso.

Extraer texto de PDF en C# (Tutorial de ejemplo de código), Figura 6: Biblioteca IronPdf en el Administrador de Paquetes NuGet Biblioteca IronPdf en el Administrador de Paquetes NuGet

3.3 Descarga directa desde el sitio web de NuGet

NuGet Instalación con NuGet

PM >  Install-Package IronPdf

Consulta IronPDF en NuGet para una instalación rápida. Con más de 10 millones de descargas, está transformando el desarrollo de PDF con C#. También puedes descargar el DLL o el instalador de Windows.

La tercera manera es descargar el paquete de NuGet de IronPDF directamente desde su sitio web.

  • Vaya al paquete IronPDF en NuGet.
  • Seleccione la opción de descarga de paquetes en el menú de la derecha.
  • Haga doble clic en el paquete descargado. Se instalará automáticamente.
  • A continuación, vuelva a cargar la solución y empiece a utilizarla en el proyecto.

3.4 Descarga directa desde el sitio web de IronPDF

--BLOQUE_DE_INSTALACIÓN_LIBRERÍA_DLL--

Visite el sitio oficial de IronPDF para descargar el último paquete directamente desde su sitio web. Una vez descargado, siga los pasos a continuación para agregar el paquete al proyecto.

  • Haga clic con el botón derecho del ratón en el proyecto de la ventana de la solución.
  • A continuación, seleccione las opciones de referencia y busque la ubicación de la referencia descargada.
  • A continuación, haga clic en Aceptar para añadir la referencia.

4. Extraer texto con IronPDF

El programa IronPDF nos permite realizar la extracción de texto del archivo PDF y convertir páginas PDF en objetos PDF. A continuación se muestra un ejemplo de cómo utilizar IronPDF para leer un PDF existente.

El primer método consiste en extraer texto de un PDF y el fragmento de código de ejemplo se muestra a continuación.

using IronPdf;

var pdfDocument = PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();
using IronPdf;

var pdfDocument = PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();
Imports IronPdf

Private pdfDocument = PdfDocument.FromFile("result.pdf")
Private AllText As String = pdfDocument.ExtractAllText()
$vbLabelText   $csharpLabel

El método estático FromFile se utiliza para cargar el documento PDF desde un archivo existente y transformarlo en objetos PDFDocument, como se muestra en el código anterior. Podemos leer el texto y las imágenes accesibles en las páginas PDF utilizando este objeto. El objeto tiene un método llamado ExtractAllText que extrae todo el texto de todo el documento PDF, luego guarda el texto extraído en la cadena que podemos usar para procesar.

A continuación se muestra el ejemplo de código para el segundo método que podemos utilizar para extraer texto de un archivo PDF, página por página.

using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
    string Text = pdf.ExtractTextFromPage(index);
}
using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
    string Text = pdf.ExtractTextFromPage(index);
}
Using pdf As PdfDocument = PdfDocument.FromFile("result.pdf")
	For index = 0 To pdf.PageCount - 1
		Dim Text As String = pdf.ExtractTextFromPage(index)
	Next index
End Using
$vbLabelText   $csharpLabel

En el código anterior, vemos que primero cargará todo el documento PDF y lo convertirá en un objeto PDF. Luego, obtenemos el conteo de páginas de todo el documento PDF utilizando un método incorporado llamado PageCount, y esto recuperará el número total de páginas disponibles en el documento PDF cargado. Usar el "for loop" y la función ExtractTextFromPage nos permite pasar el número de página como un parámetro para extraer texto del documento cargado. A continuación, guardará el texto exacto en la variable de cadena. Asimismo, extraerá texto del PDF página por página con ayuda del bucle "for" o "for each".

5. Conclusión

IronPDF es una biblioteca PDF versátil y potente diseñada para facilitar el trabajo con PDFs en aplicaciones .NET. Sus características robustas permiten a los desarrolladores crear, manipular y extraer contenido de archivos PDF sin depender de dependencias de terceros como Adobe Reader. Una de las capacidades destacadas de IronPDF es su habilidad para extraer texto de documentos PDF. Esta función es invaluable para automatizar tareas como el análisis de datos, la indexación de documentos, la migración de contenido y la habilitación de funciones de accesibilidad. Al permitir que los desarrolladores recuperen y procesen texto de manera programática, IronPDF simplifica los flujos de trabajo y abre nuevas posibilidades para manejar contenido PDF.

Con una integración sencilla y soporte multiplataforma, IronPDF es una excelente opción para los desarrolladores que buscan gestionar documentos PDF de manera eficiente. Además, IronPDF ofrece una prueba gratuita, que le permite explorar su gama completa de características sin riesgo antes de comprometerse. Para obtener detalles sobre precios y conocer más sobre las opciones de licenciamiento, visite nuestra página de precios.

Comience con IronPDF ahora.
green arrow pointer

Kye Stuart
Redactor técnico

Kye Stuart fusiona la pasión por la codificación y la habilidad de escritura en Iron Software. Educado en Yoobee College en despliegue de software, ahora transforma conceptos técnicos complejos en contenido educativo claro. Kye valora el aprendizaje permanente y afronta nuevos desafíos tecnológicos.

Fuera del trabajo, disfruta de los juegos de PC, transmitir en Twitch y actividades al aire libre como la jardinería y pasear a su perro, Jaiya. El enfoque directo de Kye los convierte en una pieza clave para la misión de Iron Software de desmitificar la tecnología para desarrolladores a nivel mundial.

< ANTERIOR
Cómo generar PDF en ASP.NET usando C#
SIGUIENTE >
Cómo extraer datos de un PDF en C#