using IronPdf; // Disable local disk access or cross-origin requests Installation.EnableWebSecurity = true; // Instantiate Renderer var renderer = new ChromePdfRenderer(); // Create a PDF from a HTML string using C# var pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1>"); // Export to a file or Stream pdf.SaveAs("output.pdf"); // Advanced Example with HTML Assets // Load external html assets: Images, CSS and JavaScript. // An optional BasePath 'C:\site\assets\' is set as the file location to load assets from var myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", @"C:\site\assets\"); myAdvancedPdf.SaveAs("html-with-assets.pdf");

IRONPDFの使用

C#でPDFからデータを抽出する方法

Name: IronPDF
Brand: Iron Software
Availability: InStock
Rating: 4.87 (307 reviews)

チペゴ・カリンダ

2022年6月26日

更新済み 2024年1月21日

共有:

イントロダクション

あなたのビジネスは、PDFのセキュリティとコンプライアンスの年間サブスクリプションに多額の費用を費やしています。一度きりの支払いで、デジタル署名、秘匿、暗号化、保護といったSaaSサービスの管理ソリューションを提供するIronSecureDocを検討してください。IronSecureDocについてさらに詳しく

PDFからデータを抽出することは、手動入力の時間を節約するために重要です。この記事では、開発者がIronPDFライブラリを使用してPDFドキュメントからテキストと画像を抽出する方法を説明しています。

C#でPDFからデータを抽出する方法

PDF C# ライブラリからデータを抽出してダウンロードする
Visual Studioで新しいプロジェクトを作成する
プロジェクトにライブラリをインストール
特定のページからデータを抽出し、PDFから特定のデータを抽出します。
PDFドキュメントのデータ出力を表示

IronPDF: C# PDFライブラリ

IronPDFは、PDFファイルの作成、編集、変換に使用できる.NETライブラリです。これは、開発者が自分のアプリケーションで使用できる使いやすいAPIを提供します。これは、PDFファイルの作成、編集、および変換のための最も人気のあるライブラリの一つです。 IronPDFを使用すると、PDFに対するシンプルで迅速な解決策を作成できます。あなたのテキストは各ドキュメントに合わせてカスタマイズされます、レイアウトは読みやすいように設定され、グラフィックは付随する.NETプログラムの助けを借りて設計されます。

IronPDFライブラリには、PDFファイルからデータを抽出するための素晴らしい機能があります。この記事では、IronPDFを使用してデータを抽出する方法について説明します。まず、C#プロジェクトを作成するか、開く必要があります。次のセクションに進みましょう。

Visual StudioでC＃プロジェクトを作成または開く

このチュートリアルでは、最新バージョンの Visual Studio を使用することを推奨します。

Visual Studioを開いたら、以下の手順に従って新しいC#プロジェクトを作成してください。既存のプロジェクトを使用したい場合は、次のステップをスキップして、次のセクションに直接進んでください。

Visual Studio を開く
「新しいプロジェクトを作成」ボタンをクリックしてください。

Visual Studio の起動画面 UI
テンプレートから「C# コンソールアプリケーション」を選択します。

新しいプロジェクトを作成
プロジェクトに名前を付けて、次へボタンをクリックします。
プロジェクトの要件に応じて .NET Framework を選択し、作成ボタンをクリックします。

.NET Frameworkの選択

Visual Studio は、今、新しい C# .NET プロジェクトを生成します。

IronPDFライブラリをインストールする

IronPDF ライブラリは複数の方法でインストールできます。

パッケージマネージャーコンソールの使用

ツール > NuGet パッケージマネージャー > パッケージマネージャーコンソール に移動して、パッケージマネージャーコンソールを開きます。
次のコマンドを実行します:

Install-Package IronPdf

C#でPDFからデータを抽出する方法、図4: パッケージマネージャーコンソールタブでのインストール進行状況

パッケージマネージャーコンソールタブでのインストールの進行状況

インストール後、以下に示すように、ソリューションエクスプローラーのdependenciesセクションにIronPDFの依存関係が表示されます。

PDFからデータを抽出する方法 C#での実装, 図5: ソリューションエクスプローラーでIronPdfパッケージを参照

ソリューションエクスプローラーでIronPdfパッケージを参照する

NuGetパッケージマネージャーを使用する

IronPDFライブラリをインストールする別の方法は、Visual Studioの統合されたNuGetパッケージマネージャーのUIを使用することです。

メインメニューからツールに移動します。ドロップダウンメニューから「NuGet パッケージマネージャー」にホバーし、「NuGet パッケージマネージャーソリューション」を選択します。

NuGet パッケージマネージャーに移動
これにより、NuGetパッケージマネージャーウィンドウが開きます。「参照」タブに移動し、検索でIronPdfと入力して、Enterキーを押してください。
検索結果からIronPDFを選択し、「インストール」ボタンをクリックしてインストールを開始してください。

NuGet パッケージマネージャーから IronPdf パッケージをインストールする

PDFファイルからデータを抽出

次のコードを使ってIronPDFを使用してデータを抽出する方法を見てみましょう:

//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;

//  Extracting Image and Text content from Pdf Documents

// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

//Get all text to put in a search index
string AllText = pdf.ExtractAllText();

//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();

//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
    int PageNumber = index + 1;
    string Text = pdf.ExtractTextFromPage(index);
    IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
    ///...
}

//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;

//  Extracting Image and Text content from Pdf Documents

// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

//Get all text to put in a search index
string AllText = pdf.ExtractAllText();

//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();

//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
    int PageNumber = index + 1;
    string Text = pdf.ExtractTextFromPage(index);
    IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
    ///...
}

'Rendering PDF documents to Images or Thumbnails
Imports IronPdf
Imports System.Drawing

'  Extracting Image and Text content from Pdf Documents

' open a 128 bit encrypted PDF
Private PdfDocument As using

'Get all text to put in a search index
Private AllText As String = pdf.ExtractAllText()

'Get all Images
Private AllImages As IEnumerable(Of System.Drawing.Image) = pdf.ExtractAllImages()

'Or even find the precise text and images for each page in the document
For index = 0 To pdf.PageCount - 1
	Dim PageNumber As Integer = index + 1
	Dim Text As String = pdf.ExtractTextFromPage(index)
	Dim Images As IEnumerable(Of System.Drawing.Image) = pdf.ExtractImagesFromPage(index)
	'''...
Next index

$vbLabelText $csharpLabel

まず、FromFile メソッドは、プログラム内に入力PDFドキュメントを読み込むために使用されます。暗号化されたPDFファイルが提供されており、ファイルにアクセスするためのパスワードが必要です。その後、ExtractAllText メソッドを使用してテキストデータを抽出し、すべてのテキストデータを文字列変数に取り込みます。ここから、PdfDocumentには多くの機能があります：プレーンテキストとして出力する、TXTファイルに出力する、データベースに保存するなど。

IronPDFはPDFテーブルからテキストを抽出し、1つまたは複数のCSVファイルに含めることができます。

11行目では、PDFドキュメントから埋め込まれたすべての画像を抽出するためにExtractAllImagesメソッドを使用します。

IronPDFは、特定のPDFページからコンテンツを抽出することもできます。上記の例の残りのコード行は、ExtractTextFromPage および ExtractImagesFromPage メソッドを使用して、一部のページからテキストと画像を取得する方法を示しています。両方のメソッドは、目的のページのゼロベースのインデックスを表す整数引数を受け取ります。

結論

IronPDFを使用すると、開発者はExtractAllTextとExtractAllImagesを利用して、わずか1行のコードでPDFファイルからテキストと画像を抽出し、PDFファイルの全内容を瞬時に抽出できます。また、ExtractAllImage または ExtractAllText を呼び出すことで、特定の1つのPDFページからテキストと画像を取得できます。前回のサンプルコードでは、複数のページからテキストと画像を読み取るための二つの方法を使用する方法を示しました。

さらに、IronPDF は PDF におけるチャートのレンダリング、バーコードの追加、パスワードによるセキュリティの強化や透かしの挿入、さらにはPDF フォームのプログラム的な処理にも対応しています。

IronPDFは開発に完全に無料です。商業利用には支払いが必要ですが、IronPDFの無料トライアルに支払いなしでアクセスして製品を利用することができます。

Iron Softwareのドキュメントライブラリのフルスイートを、2つのIronPDF Lite ライセンスの価格で購入できます。

IronPDF を今すぐダウンロードして、今日からPDFからデータを抽出し始めましょう！

チペゴ・カリンダ

今すぐエンジニアリングチームとチャット

ソフトウェアエンジニア

チペゴは優れた傾聴能力を持ち、それが顧客の問題を理解し、賢明な解決策を提供する助けとなっています。彼は情報技術の学士号を取得後、2023年にIron Softwareチームに加わりました。現在、彼はIronPDFとIronOCRの2つの製品に注力していますが、顧客をサポートする新しい方法を見つけるにつれて、他の製品に関する知識も日々成長しています。Iron Softwareでの協力的な生活を楽しんでおり、さまざまな経験を持つチームメンバーが集まり、効果的で革新的な解決策を提供することに貢献しています。チペゴがデスクを離れているときは、良い本を楽しんだり、サッカーをしていることが多いです。

< 以前
C＃でPDFからテキストを抽出する方法（コード例チュートリアル）

次へ >
C#を使用してPDFにページ番号を追加する方法