透かしなしで本番環境でテストしてください。
必要な場所で動作します。
30日間、完全に機能する製品をご利用いただけます。
数分で稼働させることができます。
製品トライアル期間中にサポートエンジニアリングチームへの完全アクセス
PDFからデータを抽出することは、手動入力の時間を節約するために重要です。 この記事では、開発者がIronPDFライブラリを使用してPDFドキュメントからテキストと画像を抽出する方法を説明しています。
IronPDFは、PDFファイルの作成、編集、変換に使用できる.NETライブラリです。 これは、開発者が自分のアプリケーションで使用できる使いやすいAPIを提供します。 これは、PDFファイルの作成、編集、および変換のための最も人気のあるライブラリの一つです。 IronPDFを使用すると、PDFに対するシンプルで迅速な解決策を作成できます。 あなたのテキストは各ドキュメントに合わせてカスタマイズされます、レイアウトは読みやすいように設定され、グラフィックは付随する.NETプログラムの助けを借りて設計されます。
IronPDFライブラリには、PDFファイルからデータを抽出するための素晴らしい機能があります。 この記事では、IronPDFを使用してデータを抽出する方法について説明します。 まず、C#プロジェクトを作成するか、開く必要があります。 次のセクションに進みましょう。
このチュートリアルでは、最新バージョンの Visual Studio を使用することを推奨します。
Visual Studioを開いたら、以下の手順に従って新しいC#プロジェクトを作成してください。 既存のプロジェクトを使用したい場合は、次のステップをスキップして、次のセクションに直接進んでください。
「新しいプロジェクトを作成」ボタンをクリックしてください。
Visual Studio の起動画面 UI
テンプレートから「C# コンソールアプリケーション」を選択します。
新しいプロジェクトを作成
プロジェクトの要件に応じて .NET Framework を選択し、作成 ボタンをクリックします。
.NET Frameworkの選択
Visual Studio は、今、新しい C# .NET プロジェクトを生成します。
IronPDF ライブラリは複数の方法でインストールできます。
Install-Package IronPdf
パッケージ マネージャー コンソール タブでのインストールの進行状況
インストール後、以下に示すように、ソリューションエクスプローラーのdependencies
セクションにIronPDFの依存関係が表示されます。
ソリューションエクスプローラーでIronPdfパッケージを参照する
IronPDFライブラリをインストールする別の方法は、Visual Studioの統合されたNuGetパッケージマネージャーのUIを使用することです。
メインメニューからツールに移動します。 ドロップダウンメニューから「NuGet パッケージ マネージャー」にホバーし、「NuGet パッケージ マネージャー ソリューション」を選択します。
NuGet パッケージ マネージャーに移動
IronPdf
と入力して、Enterキーを押してください。検索結果からIronPDFを選択し、「インストール」ボタンをクリックしてインストールを開始してください。
NuGet パッケージ マネージャーから IronPdf パッケージをインストールする
次のコードを使ってIronPDFを使用してデータを抽出する方法を見てみましょう:
//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;
// Extracting Image and Text content from Pdf Documents
// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
//Get all text to put in a search index
string AllText = pdf.ExtractAllText();
//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();
//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
int PageNumber = index + 1;
string Text = pdf.ExtractTextFromPage(index);
IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
///...
}
//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;
// Extracting Image and Text content from Pdf Documents
// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
//Get all text to put in a search index
string AllText = pdf.ExtractAllText();
//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();
//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
int PageNumber = index + 1;
string Text = pdf.ExtractTextFromPage(index);
IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
///...
}
'Rendering PDF documents to Images or Thumbnails
Imports IronPdf
Imports System.Drawing
' Extracting Image and Text content from Pdf Documents
' open a 128 bit encrypted PDF
Private PdfDocument As using
'Get all text to put in a search index
Private AllText As String = pdf.ExtractAllText()
'Get all Images
Private AllImages As IEnumerable(Of System.Drawing.Image) = pdf.ExtractAllImages()
'Or even find the precise text and images for each page in the document
For index = 0 To pdf.PageCount - 1
Dim PageNumber As Integer = index + 1
Dim Text As String = pdf.ExtractTextFromPage(index)
Dim Images As IEnumerable(Of System.Drawing.Image) = pdf.ExtractImagesFromPage(index)
'''...
Next index
まず、FromFile
メソッドは、プログラム内に入力PDFドキュメントを読み込むために使用されます。 暗号化されたPDFファイルが提供されており、ファイルにアクセスするためのパスワードが必要です。その後、ExtractAllText
メソッドを使用してテキストデータを抽出し、すべてのテキストデータを文字列変数に取り込みます。 ここから、PdfDocument
には多くの機能があります:プレーンテキストとして出力する、TXTファイルに出力する、データベースに保存するなど。
IronPDFはPDFテーブルからテキストを抽出し、1つまたは複数のCSVファイルに含めることができます。
11行目では、PDFドキュメントから埋め込まれたすべての画像を抽出するためにExtractAllImages
メソッドを使用します。
IronPDFは、特定のPDFページからコンテンツを抽出することもできます。 上記の例の残りのコード行は、ExtractTextFromPage
および ExtractImagesFromPage
メソッドを使用して、一部のページからテキストと画像を取得する方法を示しています。 両方のメソッドは、目的のページのゼロベースのインデックスを表す整数引数を受け取ります。
IronPDFを使用すると、開発者はExtractAllText
とExtractAllImages
を利用して、わずか1行のコードでPDFファイルからテキストと画像を抽出し、PDFファイルの全内容を瞬時に抽出できます。 また、ExtractAllImage
または ExtractAllText
を呼び出すことで、特定の1つのPDFページからテキストと画像を取得できます。 前回のサンプルコードでは、複数のページからテキストと画像を読み取るための二つの方法を使用する方法を示しました。
さらに、IronPDF は PDF におけるチャートのレンダリング、バーコードの追加、パスワードによるセキュリティの強化や透かしの挿入、さらにはPDF フォームのプログラム的な処理にも対応しています。
IronPDFは開発に完全に無料です。 商業利用には支払いが必要ですが、IronPDFの無料トライアルに支払いなしでアクセスして製品を利用することができます。
Iron Softwareのドキュメントライブラリのフルスイートを、2つのIronPDF Lite ライセンスの価格で購入できます。
IronPDF を今すぐダウンロードして、今日からPDFからデータを抽出し始めましょう!