IRONPDFの使用

C#でPDFからデータを抽出する方法

イントロダクション

PDFからデータを抽出することは、手動入力の時間を節約するために重要です。 この記事では、開発者がIronPDFライブラリを使用してPDFドキュメントからテキストと画像を抽出する方法を説明しています。

IronPDF: C# PDFライブラリ

IronPDFは、PDFファイルの作成、編集、変換に使用できる.NETライブラリです。 これは、開発者が自分のアプリケーションで使用できる使いやすいAPIを提供します。 これは、PDFファイルの作成、編集、および変換のための最も人気のあるライブラリの一つです。 IronPDFを使用すると、PDFに対するシンプルで迅速な解決策を作成できます。 あなたのテキストは各ドキュメントに合わせてカスタマイズされますレイアウトは読みやすいように設定され、グラフィックは付随する.NETプログラムの助けを借りて設計されます。

IronPDFライブラリには、PDFファイルからデータを抽出するための素晴らしい機能があります。 この記事では、IronPDFを使用してデータを抽出する方法について説明します。 まず、C#プロジェクトを作成するか、開く必要があります。 次のセクションに進みましょう。

Visual StudioでC#プロジェクトを作成または開く

このチュートリアルでは、最新バージョンの Visual Studio を使用することを推奨します。

Visual Studioを開いたら、以下の手順に従って新しいC#プロジェクトを作成してください。 既存のプロジェクトを使用したい場合は、次のステップをスキップして、次のセクションに直接進んでください。

  • Visual Studio を開く
  • 「新しいプロジェクトを作成」ボタンをクリックしてください。

    C#でPDFからデータを抽出する方法、図1: Visual StudioオープニングUI

    Visual Studio の起動画面 UI

  • テンプレートから「C# コンソールアプリケーション」を選択します。

    C#でPDFからデータを抽出する方法、図2: 新しいプロジェクトを作成する

    新しいプロジェクトを作成

  • プロジェクトに名前を付けて、次へボタンをクリックします。
  • プロジェクトの要件に応じて .NET Framework を選択し、作成 ボタンをクリックします。

    C#でPDFからデータを抽出する方法、図3: .NET Frameworkの選択

    .NET Frameworkの選択

    Visual Studio は、今、新しい C# .NET プロジェクトを生成します。

IronPDFライブラリをインストールする

IronPDF ライブラリは複数の方法でインストールできます。

パッケージマネージャーコンソールの使用

  • ツール > NuGet パッケージ マネージャー > パッケージ マネージャー コンソール に移動して、パッケージ マネージャー コンソールを開きます。
  • 次のコマンドを実行します:
Install-Package IronPdf

C#でPDFからデータを抽出する方法、図4: パッケージマネージャーコンソールタブでのインストール進行状況

パッケージ マネージャー コンソール タブでのインストールの進行状況

インストール後、以下に示すように、ソリューションエクスプローラーのdependenciesセクションにIronPDFの依存関係が表示されます。

PDFからデータを抽出する方法 C#での実装, 図5: ソリューションエクスプローラーでIronPdfパッケージを参照

ソリューションエクスプローラーでIronPdfパッケージを参照する

NuGetパッケージマネージャーを使用する

IronPDFライブラリをインストールする別の方法は、Visual Studioの統合されたNuGetパッケージマネージャーのUIを使用することです。

  • メインメニューからツールに移動します。 ドロップダウンメニューから「NuGet パッケージ マネージャー」にホバーし、「NuGet パッケージ マネージャー ソリューション」を選択します。

    PDFからデータを抽出する方法(C#)、図6:NuGetパッケージマネージャーに移動

    NuGet パッケージ マネージャーに移動

  • これにより、NuGetパッケージ マネージャー ウィンドウが開きます。 「参照」タブに移動し、検索でIronPdfと入力して、Enterキーを押してください。
  • 検索結果からIronPDFを選択し、「インストール」ボタンをクリックしてインストールを開始してください。

    C#でPDFからデータを抽出する方法、図7: NuGetパッケージマネージャーからIronPdfパッケージをインストールする

    NuGet パッケージ マネージャーから IronPdf パッケージをインストールする

PDFファイルからデータを抽出

次のコードを使ってIronPDFを使用してデータを抽出する方法を見てみましょう:

//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;

//  Extracting Image and Text content from Pdf Documents

// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

//Get all text to put in a search index
string AllText = pdf.ExtractAllText();

//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();

//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
    int PageNumber = index + 1;
    string Text = pdf.ExtractTextFromPage(index);
    IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
    ///...
}
//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;

//  Extracting Image and Text content from Pdf Documents

// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

//Get all text to put in a search index
string AllText = pdf.ExtractAllText();

//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();

//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
    int PageNumber = index + 1;
    string Text = pdf.ExtractTextFromPage(index);
    IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
    ///...
}
'Rendering PDF documents to Images or Thumbnails
Imports IronPdf
Imports System.Drawing

'  Extracting Image and Text content from Pdf Documents

' open a 128 bit encrypted PDF
Private PdfDocument As using

'Get all text to put in a search index
Private AllText As String = pdf.ExtractAllText()

'Get all Images
Private AllImages As IEnumerable(Of System.Drawing.Image) = pdf.ExtractAllImages()

'Or even find the precise text and images for each page in the document
For index = 0 To pdf.PageCount - 1
	Dim PageNumber As Integer = index + 1
	Dim Text As String = pdf.ExtractTextFromPage(index)
	Dim Images As IEnumerable(Of System.Drawing.Image) = pdf.ExtractImagesFromPage(index)
	'''...
Next index
$vbLabelText   $csharpLabel

まず、FromFile メソッドは、プログラム内に入力PDFドキュメントを読み込むために使用されます。 暗号化されたPDFファイルが提供されており、ファイルにアクセスするためのパスワードが必要です。その後、ExtractAllText メソッドを使用してテキストデータを抽出し、すべてのテキストデータを文字列変数に取り込みます。 ここから、PdfDocumentには多くの機能があります:プレーンテキストとして出力する、TXTファイルに出力する、データベースに保存するなど。

IronPDFはPDFテーブルからテキストを抽出し、1つまたは複数のCSVファイルに含めることができます。

11行目では、PDFドキュメントから埋め込まれたすべての画像を抽出するためにExtractAllImagesメソッドを使用します。

IronPDFは、特定のPDFページからコンテンツを抽出することもできます。 上記の例の残りのコード行は、ExtractTextFromPage および ExtractImagesFromPage メソッドを使用して、一部のページからテキストと画像を取得する方法を示しています。 両方のメソッドは、目的のページのゼロベースのインデックスを表す整数引数を受け取ります。

結論

IronPDFを使用すると、開発者はExtractAllTextExtractAllImagesを利用して、わずか1行のコードでPDFファイルからテキストと画像を抽出し、PDFファイルの全内容を瞬時に抽出できます。 また、ExtractAllImage または ExtractAllText を呼び出すことで、特定の1つのPDFページからテキストと画像を取得できます。 前回のサンプルコードでは、複数のページからテキストと画像を読み取るための二つの方法を使用する方法を示しました。

さらに、IronPDF は PDF におけるチャートのレンダリングバーコードの追加パスワードによるセキュリティの強化透かしの挿入、さらにはPDF フォームのプログラム的な処理にも対応しています。

IronPDFは開発に完全に無料です。 商業利用には支払いが必要ですが、IronPDFの無料トライアルに支払いなしでアクセスして製品を利用することができます。

Iron Softwareのドキュメントライブラリのフルスイートを、2つのIronPDF Lite ライセンスの価格で購入できます。

IronPDF を今すぐダウンロードして、今日からPDFからデータを抽出し始めましょう!

チペゴ
ソフトウェアエンジニア
チペゴは優れた傾聴能力を持ち、それが顧客の問題を理解し、賢明な解決策を提供する助けとなっています。彼は情報技術の学士号を取得後、2023年にIron Softwareチームに加わりました。現在、彼はIronPDFとIronOCRの2つの製品に注力していますが、顧客をサポートする新しい方法を見つけるにつれて、他の製品に関する知識も日々成長しています。Iron Softwareでの協力的な生活を楽しんでおり、さまざまな経験を持つチームメンバーが集まり、効果的で革新的な解決策を提供することに貢献しています。チペゴがデスクを離れているときは、良い本を楽しんだり、サッカーをしていることが多いです。
< 以前
C#でPDFからテキストを抽出する方法(コード例チュートリアル)
次へ >
C#を使用してPDFにページ番号を追加する方法