|
みなさんこんにちは、エチャです。 光学文字認識(OCR)とは、画像ファイル内のテキストデータを分析・認識し、テキストとレイアウト情報を取得するプロセスを指します。つまり、画像内のテキストを認識し、それをテキストとして返すことを意味します。 光学文字認識(OCR)技術の応用 OCR技術の特徴効率性の向上: OCR テクノロジーにより、従来の手動方法よりもはるかに高速に情報を入力できます。 コストの削減: 手作業を機械に置き換えることで人件費を節約できます。 高い適用性: OCR テクノロジーは、さまざまなシーンや言語を認識できるほか、画像からテキストを抽出してそこに含まれる意味情報を分析できるため、機械が画像を理解するための高度な意味的手がかりを提供できます。 OCR技術の特徴 OCRの適用シナリオ
OCRの適用シナリオ この機会に、17個の非常に実用的なオープンソースOCRプロジェクトを皆様にご紹介したいと思います。これらのプロジェクトは、人物や車両など、9つの典型的なOCR認識シナリオを含む、様々なアプリケーションシナリオをカバーしています。CPUで最大3ミリ秒という高速認識速度を誇り、わずか1行のコードで反復学習が可能です。これらのプロジェクトが皆様のOCRへの理解を深め、新たな発見となることを願っています。そして、フォロワーの皆様が日々夢を実現できるよう、健康と活力に満ち溢れた日々をお祈りしています。 全文概要
yx-image-recognition - 画像認識管理システムgitee: https://gitee.com/admin_yu/yx-image-recognition 導入Spring Boot、Maven、OpenCVを用いて実装された画像ディープラーニングのデモプロジェクトです。ナンバープレート認識、顔認識、文書認識といった機能に加え、サンプル処理、モデル学習、画像処理、物体検出、物体認識といった技術を網羅しています。 特徴
システムのスクリーンショットEasyPR は、中国のオープンソースのナンバープレート認識システムです。ギティー: https://gitee.com/liuruoze/EasyPR 導入EasyPRはオープンソースの中国ナンバープレート認識システムです。その目標は、制約のない状況でシンプルかつ効率的で正確なナンバープレート認識ライブラリとなることです。 他のナンバープレート認識システムと比較して、EasyPR には次の機能があります。
例次のような元の画像があり、中央のナンバープレートの文字と色を識別する必要があるとします。 EasyPR のナンバープレート検出 (PlateDetect) の最初のステップの後、元の画像でナンバープレートのみを含むパッチを取得しました。 次に、画像タイルに対してOCR処理(EasyPRの「文字認識」と呼ばれる)を実行します。これにより、ナンバープレートの色と文字を含む文字列が得られます。 青色ナンバープレート:Su EUK722 スクリーンショット:meihu-meiyan - MeihuライブストリーミングビューティーフィルターシステムGitee: https://gitee.com/MeiHuSDK/meihu-meiyan 導入Meihu Beauty SDKは、ライブストリーミングプラットフォームでの美容効果の実現や、ショートビデオシステムへの内蔵美容効果など、様々なオーディオおよびビデオソフトウェアビジネスシーンにおけるお客様の美容ニーズを満たすサードパーティ製美容APIです。顔認識と顔キーポイント技術を基盤とし、プロ仕様のリアルタイム美容、大きな目と小顔、美容フィルター、ダイナミックステッカー、美白・美肌加工、顔整形、キュートフェイスなどの特殊効果を実現するインターフェースを提供し、多機能な動画美容ソフトウェアの開発を目指しています。 スクリーンショットdface は、オープンソースのディープラーニング ベースの顔検出および認識システムです。ギティー: https://gitee.com/kuaikuaikim/dface 導入マルチタスク畳み込みネットワーク (MTCNN) と Center-Loss に基づく、リアルタイムの複数人物の顔検出および顔認識システム。 DFaceはオープンソースのディープラーニング顔検出・認識システムです。すべての機能はPyTorchフレームワークを使用して開発されています。PyTorchはFacebookが開発したディープラーニングフレームワークで、自動微分化や動的グラフ構築といった興味深い高度な機能を備えています。DFaceはこれらの利点を自然に継承しており、トレーニングプロセスはよりシンプルで便利になり、コードはより明確で理解しやすくなっています。DFaceはCUDAを利用してGPUアクセラレーションをサポートできます。 HyperLPR - 高性能な中国ナンバープレート認識管理システムgitee: https://gitee.com/zeusees/HyperLPR 導入HyperLRPは、ディープラーニングをベースとしたオープンソースの高性能な中国ナンバープレート認識ライブラリです。PHP、C/C++、Pythonの各言語と、Windows/Mac/Linux/Android/iOSプラットフォームをサポートしています。 特性
識別可能なナンバープレートの種類とサポートが必要なナンバープレートの種類
スクリーンショットidCardCv - 文書認識管理システムギティー: https://gitee.com/endlesshh/idCardCv 導入idCardCvは、WebベースのIDカード認識サーバーに適したIDカード番号認識ツールです。フロントエンドでIDカード番号を特定し、バックエンドで処理・認識を行い、約96%の精度で認識します。また、前面に他のテキストが印刷されている自治区のIDカードも認識可能です。 検証デコーダー - CAPTCHA認識用のCNNライブラリGitee: https://gitee.com/kdldbq/verification-decoder 導入4桁のCAPTCHAは、CNN(畳み込みニューラルネットワーク)を用いて学習されました。文字の組み合わせは62種類(0-9a-zA-Z)ありますが、予測は大文字と小文字を区別しないため、結果として36種類の組み合わせが考えられます。CAPTCHAは、複数のフォント、色、干渉線を用いてランダムに生成されます。 TensorFlow を使用して、CNN を 600,000 回の反復でトレーニングし、4 文字の CAPTCHA を認識して、90.02% の精度を達成しました。 結果以下は、100 万個のトレーニング CAPTCHA を使用したトレーニングと、トレーニングでは使用されなかった 20 万個のテスト CAPTCHA を使用したテストから得られた結果です。 ほとんどのCAPTCHAシステムは、類似した文字(例:i、l、o、1、0など)を削除します。より包括的なテストを行うため、これらの認識困難な文字も追加することにしました。ご覧のとおり、これらの判別困難な文字が存在する場合、人間でさえ正しく予測するのは困難です(下の画像をご覧ください。1行目は予測値、2行目は実際の値を示しています)。 600,000回のトレーニング反復後の結果: 薬の識別 - 伝統中国医学の画像認識システムギティー: https://gitee.com/xiaohaoo/medicine-identification 導入伝統中医学(TCM)識別システムは、主にアプリベースの写真アップロード方式を採用しています。畳み込みニューラルネットワーク(CNN)を用いて画像認識を行うことで、高い認識効率と精度を実現しています。アプリの機能には、写真認識、TCMに関するQ&A(有料相談)、検索クエリ、TCMの薬効・効能の閲覧、インテリジェントな処方推奨(開発中)などが含まれますが、これらに限定されるものではありません。このシステムは、アプリとサーバーの両方で構成されています。 システムのスクリーンショットface-search - 顔検索およびデータ収集管理システムgitee: https://gitee.com/open-visual/face-search 導入このプロジェクトは、Alibaba CloudのVisual Intelligence Open PlatformにおけるM:N顔検索のオープンソース代替手段です。プロジェクトで使用されるモデルはすべてオープンソースです。Opensearch、Milvus、Proximaのベクターリポジトリをサポートし、高度なカスタマイズ機能を備えています。 システムアーキテクチャ図スクリーンショットPaddleDetection - 物体検出管理システムgitee: https://gitee.com/paddlepaddle/PaddleDetection 導入PaddleDetectionは、PaddlePaddleをベースとした物体検出のためのエンドツーエンド開発キットです。豊富なモデルコンポーネントとテストベンチマークを提供しながら、エンドツーエンドの産業用アプリケーションに重点を置いています。業界レベルの特性モデルとツールを作成し、産業用アプリケーションの例を構築することで、開発者はデータ準備、モデル選択、モデルトレーニング、モデル展開というプロセス全体をシームレスに統合し、迅速なアプリケーション展開を実現できます。 スクリーンショットred5-rtmp-push - SkyNet顔認識システムgitee: https://gitee.com/endlesshh/red5-rtmp-push 導入SkyNet 顔認識システムは、ビデオ ストリームを取得し、顔認識を実行し、データをストリーミング メディア サーバーにプッシュしてリアルタイムで表示します。 システム全体は 2 つのプロジェクトで構成されています。
システムのスクリーンショット open-anpr - 14 種類の中国のナンバープレートをサポートするインテリジェントなナンバープレート認識管理システム。gitee: https://gitee.com/open-visual/open-anpr 最も包括的なナンバープレート認識
無料のオフラインOCR - オフライン中国語テキスト検出および認識SDKギティー: https://gitee.com/microic/tr これは、スキャンされた文書をオフラインでテキスト認識するためのSDKです。コアコードはすべてC++で開発されており、Pythonインターフェースも提供されています。 車 - 車両の検出とカウント、ナンバープレートの位置とナンバープレートの認識の融合技術ギティー: https://gitee.com/jiang_maowei/car 導入この実装は、PyTorch ディープラーニング フレームワークに基づいており、テンプレート検出には YOLOv4、ナンバープレート検出には YOLOv5、ナンバープレート検出には LPRNet というオープンソース モデルを使用します。 Windows 10 システムをベースに、Anaconda を使用して Python 環境を構成し、Anaconda から VS Code をダウンロードしてプロジェクトを編集します。 スクリーンショットdocument-ocr - 比較的完成度の高い文書分析および認識プロジェクトgitee: https://gitee.com/rockyzheng/document-ocr 導入比較的完全なドキュメント分析および認識プロジェクトには、次の 5 つの部分が含まれます。
データこのデータは、インターネットから収集した上場企業の年次報告書のPDFファイルを解析して生成されたもので、画像とテキストの位置情報が含まれている。 スクリーンショットgradio_yolov5_det - 汎用物体検出システムgitee: https://gitee.com/CV_Lab/gradio_yolov5_det 導入これは、カスタマイズ可能な検出モデル、便利なデモンストレーション、簡単なインストールを特徴とする、Grado をベースにした YOLOv5 汎用オブジェクト検出デモンストレーション システムです。 フローチャートスクリーンショットmobile-lpr は、モバイル デバイス向けのほぼ商用グレードのナンバー プレート認識ライブラリです。ギティー: https://gitee.com/damone/mobile-lpr 導入Mobile-LPRは、モバイルデバイス向けの商用グレードに近いナンバープレート認識ライブラリです。推論バックエンドとしてNCNN、アルゴリズムコアとしてDNNを採用しています。複数のナンバープレート検出アルゴリズム、ナンバープレート認識、色認識をサポートしています。 特徴
フローチャート スクリーンショットやっとたった一行のコードが、次なる素晴らしい製品を生み出す。イノベーションが新たな技術時代を切り開く。たった一つの最初の願望が、無数の人々の人生に影響を与える。大企業で働いている人も、小さなチームで奮闘している人も、ベテランプログラマーでも、駆け出しの新人でも、誰もが書いたコードには世界を変える力がある。 |