DUICUO

OCR+NLP: 情報の抽出と分析 – このオープンソース プロジェクトは大ヒットとなりました!

[[431808]]

Python 中国語コミュニティ (ID: python-china)

テキストは情報を伝達する効率的な手段であり、OCR技術を用いてテキスト情報を抽出することは、様々な業界がデジタルインテリジェンスへと変革するための第一歩です。同時に、OCRによって抽出された膨大な量のテキスト情報については、NLP技術を用いた更なる処理、抽出、分析、理解によって、テキスト情報の価値を最大化することが不可欠です。NLP技術は、OCRの精度向上、テキストからの重要情報の抽出、ナレッジグラフの構築、検索、推奨、質問応答システムの構築を可能にします。

様々な業界で産業のインテリジェント化が本格化している一方で、実用化においては、データサンプルの不足、モデル精度の低さ、予測遅延の増大など、多くの課題が生じています。これらの課題に対処するため、Baidu PaddlePaddleは、データ準備、モデルトレーニングの最適化からモデル展開まで、実世界の高頻度な産業シナリオに合わせたケーススタディとチュートリアルを提供しています。

ドキュメントとコードはすでにオープンソースになっていると聞きました。

  • https://github.com/PaddlePaddle/awesome-DeepLearning

OCR + NLPタンデム技術の課題

市場にはオープンソースのOCRおよびNLP製品が数多く存在しますが、これらのツールを直接使用すると、基盤となるフレームワークの一貫性の欠如、統合の難しさ、結果の信頼性の低さといった問題が発生する可能性があります。PaddleOCRとPaddleNLPは、業界向けの開発ライブラリであり、どちらも最新バージョンのPaddlePaddleオープンソースフレームワークに基づいており、OCRとNLPテクノロジーをシームレスに統合できます。

本日は、金融業界の調査レポートと物流の速達伝票における OCR + NLP 情報抽出技術の応用について検証します。

OCR + NLP金融調査レポート分析

現在、多くの投資機関が株式、ファンド、業界に関する判断をリサーチレポートを通じて提供しており、一般の人々は注目のトピックや有力企業などの情報を把握しています。しかし、リサーチレポートの分析・検討には多くの時間がかかることが多く、レポート数の増加に伴い、インテリジェントな分析への需要が高まっています。そこで、私たちは固有表現抽出技術を用いて、リサーチレポートから重要な情報を自動的に抽出します。例えば、「中国銀行は1912年に設立された」という記述には、組織構造、出来事の背景、時間といった固有表現情報が含まれています。

OCR+NLPパイプライン

研究報告書データに対する固有表現抽出と単語頻度統計の全体プロセスを上図に示す。まず、研究報告書のPDFデータをFitzパッケージを用いて画像形式に分割する。次に、PaddleOCRスイートを用いて研究報告書データセット上でPP-OCR[1]の検出モデルを微調整し、既存の認識モデルを用いてテキスト情報を取得する。PP-OCRは、百度がPaddleOCRの中で開発したスターモデルシリーズであり、テキスト検出、テキスト方向分類、テキスト認識モジュールが連携して構成されている。

PP-OCRパイプライン

OCRで認識されたテキストを処理した後、PaddleNLPのTaskflow APIを使用してテキスト情報から組織エンティティを抽出します。最後に、これらのエンティティに対して単語頻度統計を実行し、現在の調査レポート分析における注目の組織を予備的に特定します。

タスクフローの使用図

現在、Taskflow API は、自然言語理解 (NLU) と生成言語 (NLG) の 2 つの主なシナリオにわたって 8 つのタスクをサポートしています。これには、中国語の単語分割、品詞タグ付け、固有表現認識、構文解析、テキスト修正、感情分析、生成質問応答、インテリジェント詩作などが含まれており、すべて 1 回のクリックでアクセスできます。

物流・速達注文情報抽出

独身の日が近づき、多くの人がショッピングカートをパンパンに詰め込んでいるのではないでしょうか。昨年の独身の日の売上高は4,982億元に達し、全国の宅配便会社は39億個の荷物を取り扱いました。この急増の背景には、物流業界の作業負荷の劇的な増加があります。長深高速道路は満員で、配達ドライバーも忙しく働いています。業務概要の作成から出荷情報の入力まで、重要な情報をインテリジェントに抽出することが不可欠であり、これらのプロセスすべてに固有表現抽出技術が活用されています。

固有表現認識には、一般的に文字列マッチング、統計言語モデル、シーケンスラベリングの3つのアプローチがあります。最初の2つの手法は、辞書を事前に構築し、すべての固有表現を網羅的に列挙する必要があるため、新しい単語や異形を発見することは不可能です。このケーススタディでは、現在主流となっているシーケンスラベリングを採用します。

データセットには、BIO システムを使用してラベル付けされた 1600 個のトレーニング サンプル、200 個のトレーニング サンプル、および 200 個のテスト サンプルが含まれています。

エンティティ定義とデータセット注釈の例

軽量かつ高精度という要件を満たすには、RNN+CRF方式を選択できます。あるいは、事前学習済みモデルを使用し、モデルの圧縮、動的から静的への高速化などによって精度とパフォーマンスの要件を満たすこともできます。Ernie-Gram[2] + CRFを使用することで、最良の結果が得られました。

さらに、固有表現抽出技術は、eコマースのレビューにおける商品名、電子請求書のヘッダー情報、所得証明書の金額、法務文書における犯罪発生場所など、様々な重要な情報の抽出に応用できます。関係抽出技術やイベント抽出技術と組み合わせることで、ナレッジグラフの構築や質問応答システムの構築にも活用できます。