DUICUO

今後の参考のために、オープンソースの OCR 認識プロジェクトをいくつか紹介します。

技術の発展に伴い、OCRアプリケーションは普及し、多くのアプリがIDカード認識や銀行カード認識などの機能を統合しています。WeChatでさえ、スクリーンショットからのテキスト抽出をサポートしています。現在、主要ベンダーは様々なシナリオに対応したOCR認識APIを提供しています。しかし、時には自分で試してみたい場合もあります。そのような場合、主流のオープンソースフレームワークを活用することで、迅速に目的を達成できます。

OCRエンジン

テッセラクト

Tesseractは、HP Labsが開発し、GoogleがメンテナンスするオープンソースのOCRエンジンです。オープンソースで無料であり、複数の言語とプラットフォームをサポートしています。

https://github.com/tesseract-ocr/tesseract.git

テッセラクト

Tesseract OCRのJavaScript版は100以上の言語をサポートし、非常に使いやすいです。npm経由でインストールするか、ページ内で直接参照することができます。

https://github.com/naptha/tesseract.js.git

パドルOCR

PaddleOCR は Baidu のオープンソース OCR ツールキットであり、開発者がより優れたモデルをトレーニングし、効果的に実装できるようにするための、機能豊富で最先端の実用的な OCR ツールキットの作成を目指しています。


https://github.com/PaddlePaddle/PaddleOCR.git

イージーOCR

EasyOCRは、 TesseractをベースにしたPythonで書かれたOCR認識ライブラリで、画像認識とテキスト出力に使用されます。現在、80以上の言語をサポートしています。

https://github.com/JaidedAI/EasyOCR.git

MMOCR

MMOCR は、PyTorch と mmdetection をベースにしたオープンソース ツールキットで、テキスト検出、テキスト認識、およびキー情報の抽出などの関連するダウンストリーム タスクに重点を置いています。

https://github.com/open-mmlab/mmocr.git

シンプルOCR OpenCV

OpenCVNumPyオープンソースに基づくOCR認識エンジン

https://github.com/goncalopp/simple-ocr-opencv.git

OCRツール

OCRmyPDF

OCRmyPDF は、tesseract-ocr に基づいたテキスト認識および抽出のためのオープンソース プロジェクトです

https://github.com/ocrmypdf/OCRmyPDF.git

海OCR

PaddleOCR をベースにしたオープンソースのテキスト認識ツール。

一般的に、オープンソースプロジェクトの認識率は商用プロジェクトと同等ではありません。認識率を向上させる唯一の方法は、独自の文字セットをトレーニングすることです。テキスト認識のシナリオには画像処理が含まれる場合があり、 OpenCVなどの強力なオープンソース画像処理プロジェクトが活用されています。これらのプロジェクトの中で、 PaddleOCRは一般的なビジネスシナリオに適しており、カスタムトレーニングもサポートしています。