DUICUO

MinerU は、多目的に使えるオープンソースのドキュメントおよび Web ページ データ抽出ツールです。

MinerUは、上海人工知能研究所のOpenDataLabチームによってリリースされた、多用途のオープンソース文書およびWebページデータ抽出ツールです。画像、表、数式などの要素を含むマルチモーダルPDF文書を、明快で分析しやすいMarkdown形式に変換できます。また、広告などの不要な情報を含むWebページから主要なコンテンツを迅速に解析・抽出し、一括でMarkdown形式に変換することも可能。

I. 主な特徴

多機能性: MinerU は、Magic-PDF と Magic-Doc という 2 つの主要部分で構成されており、それぞれ PDF ドキュメントの抽出と Web ページおよび電子書籍の抽出を担当します。

マルチモーダル処理: Magic-PDF は、元のドキュメントの構造と形式を維持しながら、画像、表、数式など、PDF 内のさまざまなコンテンツ タイプを処理できます。

高品質の解析: MinerU は、LayoutLMv3、YOLOv8、UniMERNet、PaddleOCR などの高度なモデルを使用して、データ抽出の高精度を保証します。

幅広い応用範囲:学術、金融、法律など複数の分野に適用でき、最大 176 言語の正確な認識をサポートします。

クロスプラットフォーム サポート: Windows、Linux、Mac プラットフォームで実行でき、CPU と GPU の両方の環境をサポートします。

II. 使用シナリオ

MinerU は、複雑な形式のドキュメントからデータを抽出する必要があるシナリオに適しており、特に AI 研究や大規模モデルのトレーニングで大量の非構造化データを処理する必要がある場合に適しています。

III. 技術的な詳細

PDF文書抽出:MinerUのPDF抽出プロセスには、PDF文書分類の前処理、モデル解析、パイプライン処理が含まれます。テキストベース、レイヤード、スキャンされたPDF文書を認識・処理し、一連のディープラーニングモデルを通じてレイアウト分析、OCR、数式認識を実行します。

Web ページと電子書籍の抽出: Magic-Doc は、epub や mobi などの複数の形式をサポートし、さまざまな種類の Web ページや電子書籍から情報を抽出できます。また、記事、フォーラム、音楽、ビデオなどのコンテンツ タイプを処理できます。

IV. 迅速なインストールと使用

CPUのデモ

# 1. 安装依赖conda create -n MinerU pythnotallow=3.10 conda activate MinerU pip install -U magic-pdf[full] --extra-index-url https://wheels.myhloli.com -i https://pypi.tuna.tsinghua.edu.cn/simple # 2. 下载模型权重文件# 根据官方文档(https://github.com/opendatalab/MinerU/blob/master/docs/how_to_download_models_en.md)指示操作# 3. 配置Magic-PDF cp magic-pdf.template.json ~/magic-pdf.json # 编辑~/magic-pdf.json,设置正确的模型文件路径# 4. 开始使用magic-pdf --help magic-pdf -p {some_pdf} -o {some_output_dir} -m auto

Docker の迅速なデプロイメント

# 检查您的设备是否支持Docker上的CUDA加速。 docker run --rm --gpus=all nvidia/cuda:12.1.0-base-ubuntu22.04 nvidia-smi # 运行docker 部署wget https://github.com/opendatalab/MinerU/raw/master/Dockerfile docker build -t mineru:latest . docker run --rm -it --gpus=all mineru:latest /bin/bash magic-pdf --help

詳しい使用方法については下記アドレスをご参照ください。

要約

MinerUは、強力で多用途なデータ抽出ツールです。様々なドキュメントから高品質なデータを抽出できるため、特にAI研究やビッグデータモデルのトレーニングに最適です。いくつかの制限はあるものの、オープンソースであることと継続的なコミュニティサポートのおかげで、注目し、試してみる価値のあるツールです。

こちらから体験してください: https://opendatalab.com/OpenSourceTools/Extractor/PDF

オープンソースリポジトリ: https://github.com/opendatalab/MinerU/

MinerU オープンソースモデル (PDF-Extract-Kit): https://modelscope.cn/models/OpenDataLab/PDF-Extract-Kit