New

New

Document Parseは、文書全体を構造化してAIが理解しやすい形式に変換し、検索やRAGでの活用を可能にします。Information Extractは、金額や日付など特定の項目を正確に抽出し、JSON形式で出力する技術です。

Highlights

例えば、次のようなリクエストがあります。

「この契約書から契約金額を抽出してください」
「この契約書の違約条項を探して説明してください」

どちらのリクエストも文書処理に関わるものですが、必要とされる技術は根本的に異なります。最初のリクエストは特定のデータを抽出する技術(Information Extract)に該当し、二つ目のリクエストは文書全体の理解が必要な技術(Document Parse)に該当します。

Document Parseは文書をHTMLやMarkdownなど、LLMが理解しやすい形式に変換し、Information Extractは必要な情報を抽出し、JSON形式ですぐに活用できる形に出力します。

主要な違いを比較

Document Parse:文書を「AIが読める形」に変換

これは、Upstageによる文書処理の流れを示した図です。PDF、JPG、DOCXなどさまざまなファイル形式の文書は、まずDocument Parseを通してHTMLやMarkdownに変換され、その後、Information Extractを通して構造化されたJSONデータとして出力されます。さらに、ここで出力されたデータはSyn Proなどの LLMでも活用が可能です。

Document Parseを利用することで、PDFやスキャン文書、複雑な文書をLLMが理解できるHTML/Markdown形式に変換できるのです。

主な機能

  • 表やグラフ、文書の階層構造を保持
  • セクション間の関係性を維持
  • LLMやRAGシステムでの利用に最適化

活用例
法務リサーチや技術マニュアル、学術論文など、文書全体の情報をもとにした予測困難な質問に対応する場面。

Information Extract:必要な情報だけを抽出

定義された項目をJSON形式で抽出し、位置情報(座標)や信頼度スコア付きで出力されます。

主な機能

  • 事前学習不要のスキーマベース抽出
  • PDF、Word、スキャン文書などさまざまな形式に対応
  • 確認が容易な構造化データを返却

活用例 請求書処理、保険請求の自動化、フォーム入力処理など、大量の文書から一貫した項目を抽出する必要がある場面。

実際の事例で考える、最適なアプローチの選び方

文書:自動車保険の契約書

課題:同じ文書から、2つのチームが異なる情報を必要としている

チームA:保険金請求データの自動入力

目標:1日あたり500件の請求データを業務システムに自動入力

必要な情報:契約種別、補償金額、特約など、データベースに直接取り込んで効率的に処理できる項目

解決策Information Extract

{

  "insurance_type": "Auto Insurance",

  "coverage": {

    "bodily_injury_1": "unlimited",

    "self_accident_death": 100000000

  },

  "metadata": {

    "location": {"page": 1, "bbox": [50, 100, 200, 120]}

  }

}

チームB:保険金請求データの自動入力

目標:電話応対中に契約内容に関する質問にリアルタイムで回答

必要な情報:「身体傷害保険①と②の違い」のような予測不可能な質問に対応するための、文書全体の文脈

解決策Document Parse

# Auto Insurance Policy

## Article 1 (Coverage)

The company shall compensate for damages arising from accidents

involving the insured vehicle during ownership, use, or management.

| Coverage Type | Coverage Details | Insured Amount |

|---------------|------------------|----------------|

| Bodily Injury I | Unlimited | Statutory |

| Bodily Injury II | Death/Disability | Insured amount |

**Special Terms**

- Self-injury: KRW 100M upon death

使い分けのポイント

Information ExtractにはOCRやレイアウト認識機能が備えられており、Document Parseとは独立して動作します。そのため、両製品は同じワークフロー内でも併用できますが、互いに依存せず、それぞれ独立して利用が可能です。

Document Parseは、文書をAI向けに最適化された形式に変換し、Syn ProなどのLLMを用いた検索やQ&A、RAGアプリケーションで活用できます。

一方、Information Extractは、特定の項目を構造化されたJSONとして抽出し、データベースや業務システムへの連携、RPAなどで利用できます。

両方を併用する場合

大量の自動化処理にInformation Extractを使用し、文書全体の調査や全文検索が必要な場合にDocument Parseを併用するのが一般的です。例えば、保険会社では、Information Extractで請求データを自動抽出し、Document Parseで複雑な契約条項や補償条件を監査時に確認する、といった使い方がされています。

単独で使う場合

  •  Document Parseのみ:探索的なリサーチや、予測が難しい質問への対応
  • Information Extractのみ:多種多様な文書から一貫した項目を大量に抽出

FAQ

Q: どちらの技術を使うべきか、どう判断すればよいですか?

Information Extract: データベースや業務システムへの投入、ワークフローのトリガー、多種多様な文書に含まれる同一フィールドの抽出に最適です。

Document Parse: 検索・Q&Aシステムの構築、RAGの活用、予測できない質問への対応に最適です。

Both: 大量処理の自動化(Information Extract)+複雑な調査・解析(Document Parse)に最適です。

Q: Information ExtractにはDocument Parseが必要ですか?

いいえ、必要ありません。Information Extractは独立して動作し、OCRやレイアウト理解機能も備えています。両者を同じワークフロー内で併用することは可能ですが、どちらかが前提となるわけではありません。

Q: 技術ドキュメントはどこで確認できますか?

Document AIをはじめよう

あなたの文書が持つ可能性を最大限に引き出しましょう。

Upstage Console上で、Document ParseInformation Extractをすぐにお試しいただけます。

  • 文書を数秒で検索可能な構造化HTMLに変換
  • スキーマに基づいて主要項目を高精度に抽出
  • 両機能を組み合わせることで、エンドツーエンドの自動化パイプラインを構築

実際に体験してみませんか?  デモを試す (Document Parse) →  デモを試す (Information Eextract) →

Document ParseとInformation Extract :その違いと役割を解説

Document Parseは、文書全体を構造化してAIが理解しやすい形式に変換し、検索やRAGでの活用を可能にします。Information Extractは、金額や日付など特定の項目を正確に抽出し、JSON形式で出力する技術です。

Mirae Lee
Mirae Lee
Document ParseとInformation Extract :その違いと役割を解説
Mirae Lee
Products
November 28, 2025
Heading
This is some text inside of a div block.

Share

We build intelligence for the future of work—now it’s your turn.
Start building with our API or talk to our team.

例えば、次のようなリクエストがあります。

「この契約書から契約金額を抽出してください」
「この契約書の違約条項を探して説明してください」

どちらのリクエストも文書処理に関わるものですが、必要とされる技術は根本的に異なります。最初のリクエストは特定のデータを抽出する技術(Information Extract)に該当し、二つ目のリクエストは文書全体の理解が必要な技術(Document Parse)に該当します。

Document Parseは文書をHTMLやMarkdownなど、LLMが理解しやすい形式に変換し、Information Extractは必要な情報を抽出し、JSON形式ですぐに活用できる形に出力します。

主要な違いを比較

Document Parse:文書を「AIが読める形」に変換

これは、Upstageによる文書処理の流れを示した図です。PDF、JPG、DOCXなどさまざまなファイル形式の文書は、まずDocument Parseを通してHTMLやMarkdownに変換され、その後、Information Extractを通して構造化されたJSONデータとして出力されます。さらに、ここで出力されたデータはSyn Proなどの LLMでも活用が可能です。

Document Parseを利用することで、PDFやスキャン文書、複雑な文書をLLMが理解できるHTML/Markdown形式に変換できるのです。

主な機能

  • 表やグラフ、文書の階層構造を保持
  • セクション間の関係性を維持
  • LLMやRAGシステムでの利用に最適化

活用例
法務リサーチや技術マニュアル、学術論文など、文書全体の情報をもとにした予測困難な質問に対応する場面。

Information Extract:必要な情報だけを抽出

定義された項目をJSON形式で抽出し、位置情報(座標)や信頼度スコア付きで出力されます。

主な機能

  • 事前学習不要のスキーマベース抽出
  • PDF、Word、スキャン文書などさまざまな形式に対応
  • 確認が容易な構造化データを返却

活用例 請求書処理、保険請求の自動化、フォーム入力処理など、大量の文書から一貫した項目を抽出する必要がある場面。

実際の事例で考える、最適なアプローチの選び方

文書:自動車保険の契約書

課題:同じ文書から、2つのチームが異なる情報を必要としている

チームA:保険金請求データの自動入力

目標:1日あたり500件の請求データを業務システムに自動入力

必要な情報:契約種別、補償金額、特約など、データベースに直接取り込んで効率的に処理できる項目

解決策Information Extract

{

  "insurance_type": "Auto Insurance",

  "coverage": {

    "bodily_injury_1": "unlimited",

    "self_accident_death": 100000000

  },

  "metadata": {

    "location": {"page": 1, "bbox": [50, 100, 200, 120]}

  }

}

チームB:保険金請求データの自動入力

目標:電話応対中に契約内容に関する質問にリアルタイムで回答

必要な情報:「身体傷害保険①と②の違い」のような予測不可能な質問に対応するための、文書全体の文脈

解決策Document Parse

# Auto Insurance Policy

## Article 1 (Coverage)

The company shall compensate for damages arising from accidents

involving the insured vehicle during ownership, use, or management.

| Coverage Type | Coverage Details | Insured Amount |

|---------------|------------------|----------------|

| Bodily Injury I | Unlimited | Statutory |

| Bodily Injury II | Death/Disability | Insured amount |

**Special Terms**

- Self-injury: KRW 100M upon death

使い分けのポイント

Information ExtractにはOCRやレイアウト認識機能が備えられており、Document Parseとは独立して動作します。そのため、両製品は同じワークフロー内でも併用できますが、互いに依存せず、それぞれ独立して利用が可能です。

Document Parseは、文書をAI向けに最適化された形式に変換し、Syn ProなどのLLMを用いた検索やQ&A、RAGアプリケーションで活用できます。

一方、Information Extractは、特定の項目を構造化されたJSONとして抽出し、データベースや業務システムへの連携、RPAなどで利用できます。

両方を併用する場合

大量の自動化処理にInformation Extractを使用し、文書全体の調査や全文検索が必要な場合にDocument Parseを併用するのが一般的です。例えば、保険会社では、Information Extractで請求データを自動抽出し、Document Parseで複雑な契約条項や補償条件を監査時に確認する、といった使い方がされています。

単独で使う場合

  •  Document Parseのみ:探索的なリサーチや、予測が難しい質問への対応
  • Information Extractのみ:多種多様な文書から一貫した項目を大量に抽出

FAQ

Q: どちらの技術を使うべきか、どう判断すればよいですか?

Information Extract: データベースや業務システムへの投入、ワークフローのトリガー、多種多様な文書に含まれる同一フィールドの抽出に最適です。

Document Parse: 検索・Q&Aシステムの構築、RAGの活用、予測できない質問への対応に最適です。

Both: 大量処理の自動化(Information Extract)+複雑な調査・解析(Document Parse)に最適です。

Q: Information ExtractにはDocument Parseが必要ですか?

いいえ、必要ありません。Information Extractは独立して動作し、OCRやレイアウト理解機能も備えています。両者を同じワークフロー内で併用することは可能ですが、どちらかが前提となるわけではありません。

Q: 技術ドキュメントはどこで確認できますか?

Document AIをはじめよう

あなたの文書が持つ可能性を最大限に引き出しましょう。

Upstage Console上で、Document ParseInformation Extractをすぐにお試しいただけます。

  • 文書を数秒で検索可能な構造化HTMLに変換
  • スキーマに基づいて主要項目を高精度に抽出
  • 両機能を組み合わせることで、エンドツーエンドの自動化パイプラインを構築

実際に体験してみませんか?  デモを試す (Document Parse) →  デモを試す (Information Eextract) →

例えば、次のようなリクエストがあります。

「この契約書から契約金額を抽出してください」
「この契約書の違約条項を探して説明してください」

どちらのリクエストも文書処理に関わるものですが、必要とされる技術は根本的に異なります。最初のリクエストは特定のデータを抽出する技術(Information Extract)に該当し、二つ目のリクエストは文書全体の理解が必要な技術(Document Parse)に該当します。

Document Parseは文書をHTMLやMarkdownなど、LLMが理解しやすい形式に変換し、Information Extractは必要な情報を抽出し、JSON形式ですぐに活用できる形に出力します。

主要な違いを比較

Document Parse:文書を「AIが読める形」に変換

これは、Upstageによる文書処理の流れを示した図です。PDF、JPG、DOCXなどさまざまなファイル形式の文書は、まずDocument Parseを通してHTMLやMarkdownに変換され、その後、Information Extractを通して構造化されたJSONデータとして出力されます。さらに、ここで出力されたデータはSyn Proなどの LLMでも活用が可能です。

Document Parseを利用することで、PDFやスキャン文書、複雑な文書をLLMが理解できるHTML/Markdown形式に変換できるのです。

主な機能

  • 表やグラフ、文書の階層構造を保持
  • セクション間の関係性を維持
  • LLMやRAGシステムでの利用に最適化

活用例
法務リサーチや技術マニュアル、学術論文など、文書全体の情報をもとにした予測困難な質問に対応する場面。

Information Extract:必要な情報だけを抽出

定義された項目をJSON形式で抽出し、位置情報(座標)や信頼度スコア付きで出力されます。

主な機能

  • 事前学習不要のスキーマベース抽出
  • PDF、Word、スキャン文書などさまざまな形式に対応
  • 確認が容易な構造化データを返却

活用例 請求書処理、保険請求の自動化、フォーム入力処理など、大量の文書から一貫した項目を抽出する必要がある場面。

実際の事例で考える、最適なアプローチの選び方

文書:自動車保険の契約書

課題:同じ文書から、2つのチームが異なる情報を必要としている

チームA:保険金請求データの自動入力

目標:1日あたり500件の請求データを業務システムに自動入力

必要な情報:契約種別、補償金額、特約など、データベースに直接取り込んで効率的に処理できる項目

解決策Information Extract

{

  "insurance_type": "Auto Insurance",

  "coverage": {

    "bodily_injury_1": "unlimited",

    "self_accident_death": 100000000

  },

  "metadata": {

    "location": {"page": 1, "bbox": [50, 100, 200, 120]}

  }

}

チームB:保険金請求データの自動入力

目標:電話応対中に契約内容に関する質問にリアルタイムで回答

必要な情報:「身体傷害保険①と②の違い」のような予測不可能な質問に対応するための、文書全体の文脈

解決策Document Parse

# Auto Insurance Policy

## Article 1 (Coverage)

The company shall compensate for damages arising from accidents

involving the insured vehicle during ownership, use, or management.

| Coverage Type | Coverage Details | Insured Amount |

|---------------|------------------|----------------|

| Bodily Injury I | Unlimited | Statutory |

| Bodily Injury II | Death/Disability | Insured amount |

**Special Terms**

- Self-injury: KRW 100M upon death

使い分けのポイント

Information ExtractにはOCRやレイアウト認識機能が備えられており、Document Parseとは独立して動作します。そのため、両製品は同じワークフロー内でも併用できますが、互いに依存せず、それぞれ独立して利用が可能です。

Document Parseは、文書をAI向けに最適化された形式に変換し、Syn ProなどのLLMを用いた検索やQ&A、RAGアプリケーションで活用できます。

一方、Information Extractは、特定の項目を構造化されたJSONとして抽出し、データベースや業務システムへの連携、RPAなどで利用できます。

両方を併用する場合

大量の自動化処理にInformation Extractを使用し、文書全体の調査や全文検索が必要な場合にDocument Parseを併用するのが一般的です。例えば、保険会社では、Information Extractで請求データを自動抽出し、Document Parseで複雑な契約条項や補償条件を監査時に確認する、といった使い方がされています。

単独で使う場合

  •  Document Parseのみ:探索的なリサーチや、予測が難しい質問への対応
  • Information Extractのみ:多種多様な文書から一貫した項目を大量に抽出

FAQ

Q: どちらの技術を使うべきか、どう判断すればよいですか?

Information Extract: データベースや業務システムへの投入、ワークフローのトリガー、多種多様な文書に含まれる同一フィールドの抽出に最適です。

Document Parse: 検索・Q&Aシステムの構築、RAGの活用、予測できない質問への対応に最適です。

Both: 大量処理の自動化(Information Extract)+複雑な調査・解析(Document Parse)に最適です。

Q: Information ExtractにはDocument Parseが必要ですか?

いいえ、必要ありません。Information Extractは独立して動作し、OCRやレイアウト理解機能も備えています。両者を同じワークフロー内で併用することは可能ですが、どちらかが前提となるわけではありません。

Q: 技術ドキュメントはどこで確認できますか?

Document AIをはじめよう

あなたの文書が持つ可能性を最大限に引き出しましょう。

Upstage Console上で、Document ParseInformation Extractをすぐにお試しいただけます。

  • 文書を数秒で検索可能な構造化HTMLに変換
  • スキーマに基づいて主要項目を高精度に抽出
  • 両機能を組み合わせることで、エンドツーエンドの自動化パイプラインを構築

実際に体験してみませんか?  デモを試す (Document Parse) →  デモを試す (Information Eextract) →

日本語性能で国内トップLLM「Syn Pro」を体験

AIの専門家にご相談いただき、貴社に最適なソリューションをご提案します。