PDFExtractText - PDFからテキストを抽出します

PDFファイルからテキストを抽出します。
テキスト形式のPDFファイルのみテキストを抽出できます。画像形式のPDFファイルからはテキストを抽出できません。
また、縦書きのPDFファイルの場合はテキストが正しく抽出されないことがあります。

■ストリーム情報

入力フォーマットすべて
接続数1
説明 入力ストリームは使用せず、すべて無視します。
出力フォーマットRecord
説明 次のようなフィールド定義の固定のレコードが出力されます。
フィールド名データ型説明
PageNoIntegerページ番号を出力します。
TextString抽出したテキストを出力します。

■コンポーネントプロパティ

名前プロパティ型マッピング説明
PDFファイルパスremoteFile入力&出力 抽出対象のPDFファイルのパスを指定します。
相対パスの場合は相対パスの起点 の指定に基づいて解釈されます。
例:
directory/file.pdf
C:\directory\file.pdf
\\server\share\file.pdf
ファイルパスの詳細設定group- ファイルパスの詳細設定を行うプロパティ群です。
相対パスの起点pathResolver- 相対パス指定の場合にベースフォルダーを指定します。
プロジェクトフォルダ [Relative]
プロジェクトファイルと同じフォルダを起点にします。
ホームフォルダー [ProjectOwner]
ユーザーのホームフォルダーを起点にします。
実行ユーザーのホームフォルダー [ExecuteUser]
実行ユーザーのホームフォルダーを起点にします。
絶対パスを許可boolean- 絶対パスを許可するかどうか選択します。
「..」を許可boolean- 上のフォルダへ移動する記述に「..」を許可するかどうか選択します。
パスワードpassword入力&出力 PDFファイルのパスワードを指定します。PDFファイルパスで指定したPDFファイルにパスワードが設定されている場合に使用します。
処理対象ページchoice入力&出力 処理するページを指定します。
指定ページ [one] - ページ番号 で指定された1ページを処理します。
全ページ [all] - 全ページを処理します。
ページ番号int入力&出力処理対象ページ が「指定ページ」の場合に処理するページ番号を指定します。
ページ数int   出力PDFファイルパス で指定されたPDFファイルのページ数を取得できます。
整形するboolean入力&出力 テキストを整形するかどうかを指定します。
はい」を指定した場合、テキストに空白文字を追加することでテキストを整形しますが、元のPDFファイルと完全に一致することはありませんのでご注意ください。
はい [true] - テキストを整形します
いいえ [false] - テキスト整形しません
ループを開始loopProcess- 結果のレコードをまとめて出力するか、1レコードずつループして出力するかを選択します。
はい [true] - ループの起点となって1レコードずつストリームに出力されます。
いいえ [false] - すべてのレコードがまとめてストリームに出力されます。

■ループ処理

ループを開始 が「はい」の場合、結果のレコードを1レコードずつ出力します。「いいえ」の場合は、結果のレコードを一度に出力します。

■トランザクション処理

コミット何もしません。
ロールバック何もしません。

■エラー処理

タイプパラメーターエラー処理フロー
へのストリーム
エラー
コード
説明
汎用 なし コンポーネントの入力ストリーム3ページ番号 が不正な場合
4ページ番号 がPDFファイルの最大ページ数を超えている場合
9PDFファイルパス で指定されたPDFファイルの拡張子が.pdfでなかった場合
10テキストの抽出でエラーが発生した場合
ファイルが存在しない なし コンポーネントの入力ストリーム1PDFファイルパス で指定されたPDFファイルが存在しなかった場合