|
技術の発展に伴い、OCRアプリケーションは普及し、多くのアプリがIDカード認識や銀行カード認識などの機能を統合しています。WeChatでさえ、スクリーンショットからのテキスト抽出をサポートしています。現在、主要ベンダーは様々なシナリオに対応したOCR認識APIを提供しています。しかし、時には自分で試してみたい場合もあります。そのような場合、主流のオープンソースフレームワークを活用することで、迅速に目的を達成できます。 OCRエンジンテッセラクトTesseractは、HP Labsが開発し、GoogleがメンテナンスするオープンソースのOCRエンジンです。オープンソースで無料であり、複数の言語とプラットフォームをサポートしています。 https://github.com/tesseract-ocr/tesseract.git テッセラクトTesseract OCRのJavaScript版は100以上の言語をサポートし、非常に使いやすいです。npm経由でインストールするか、ページ内で直接参照することができます。 https://github.com/naptha/tesseract.js.git パドルOCRPaddleOCR は Baidu のオープンソース OCR ツールキットであり、開発者がより優れたモデルをトレーニングし、効果的に実装できるようにするための、機能豊富で最先端の実用的な OCR ツールキットの作成を目指しています。 https://github.com/PaddlePaddle/PaddleOCR.git イージーOCREasyOCRは、 TesseractをベースにしたPythonで書かれたOCR認識ライブラリで、画像認識とテキスト出力に使用されます。現在、80以上の言語をサポートしています。 https://github.com/JaidedAI/EasyOCR.git MMOCRMMOCR は、PyTorch と mmdetection をベースにしたオープンソース ツールキットで、テキスト検出、テキスト認識、およびキー情報の抽出などの関連するダウンストリーム タスクに重点を置いています。 https://github.com/open-mmlab/mmocr.git シンプルOCR OpenCVOpenCVとNumPyオープンソースに基づくOCR認識エンジン https://github.com/goncalopp/simple-ocr-opencv.git OCRツールOCRmyPDFOCRmyPDF は、tesseract-ocr に基づいたテキスト認識および抽出のためのオープンソース プロジェクトです。 https://github.com/ocrmypdf/OCRmyPDF.git 海OCRPaddleOCR をベースにしたオープンソースのテキスト認識ツール。 一般的に、オープンソースプロジェクトの認識率は商用プロジェクトと同等ではありません。認識率を向上させる唯一の方法は、独自の文字セットをトレーニングすることです。テキスト認識のシナリオには画像処理が含まれる場合があり、 OpenCVなどの強力なオープンソース画像処理プロジェクトが活用されています。これらのプロジェクトの中で、 PaddleOCRは一般的なビジネスシナリオに適しており、カスタムトレーニングもサポートしています。 |