|
MinerUは、上海人工知能研究所のOpenDataLabチームによってリリースされた、多用途のオープンソース文書およびWebページデータ抽出ツールです。画像、表、数式などの要素を含むマルチモーダルPDF文書を、明快で分析しやすいMarkdown形式に変換できます。また、広告などの不要な情報を含むWebページから主要なコンテンツを迅速に解析・抽出し、一括でMarkdown形式に変換することも可能。 I. 主な特徴多機能性: MinerU は、Magic-PDF と Magic-Doc という 2 つの主要部分で構成されており、それぞれ PDF ドキュメントの抽出と Web ページおよび電子書籍の抽出を担当します。 マルチモーダル処理: Magic-PDF は、元のドキュメントの構造と形式を維持しながら、画像、表、数式など、PDF 内のさまざまなコンテンツ タイプを処理できます。 高品質の解析: MinerU は、LayoutLMv3、YOLOv8、UniMERNet、PaddleOCR などの高度なモデルを使用して、データ抽出の高精度を保証します。 幅広い応用範囲:学術、金融、法律など複数の分野に適用でき、最大 176 言語の正確な認識をサポートします。 クロスプラットフォーム サポート: Windows、Linux、Mac プラットフォームで実行でき、CPU と GPU の両方の環境をサポートします。 II. 使用シナリオMinerU は、複雑な形式のドキュメントからデータを抽出する必要があるシナリオに適しており、特に AI 研究や大規模モデルのトレーニングで大量の非構造化データを処理する必要がある場合に適しています。 III. 技術的な詳細PDF文書抽出:MinerUのPDF抽出プロセスには、PDF文書分類の前処理、モデル解析、パイプライン処理が含まれます。テキストベース、レイヤード、スキャンされたPDF文書を認識・処理し、一連のディープラーニングモデルを通じてレイアウト分析、OCR、数式認識を実行します。 Web ページと電子書籍の抽出: Magic-Doc は、epub や mobi などの複数の形式をサポートし、さまざまな種類の Web ページや電子書籍から情報を抽出できます。また、記事、フォーラム、音楽、ビデオなどのコンテンツ タイプを処理できます。 IV. 迅速なインストールと使用CPUのデモDocker の迅速なデプロイメント 詳しい使用方法については下記アドレスをご参照ください。 要約こちらから体験してください: https://opendatalab.com/OpenSourceTools/Extractor/PDF オープンソースリポジトリ: https://github.com/opendatalab/MinerU/ MinerU オープンソースモデル (PDF-Extract-Kit): https://modelscope.cn/models/OpenDataLab/PDF-Extract-Kit |