|
顔認識、車両認識、人物属性認識、カード認識、交通標識認識といった従来の画像認識機能は、現代のデジタルワークや生活において極めて重要な役割を果たしています。業界トップクラス企業が直接呼び出し可能なAPIやSDKを提供している一方で、これらの機能は、カスタマイズされたシナリオへの汎用化効果の低さ、高価格、ブラックボックス制御の低さ、技術的障壁の確立の難しさなど、多くの課題に直面しています。 本日は、人物、車両、OCRなど、9つの典型的な認識シナリオをカバーする、完全にオープンソースで無料のプロジェクトをおすすめします。CPUでわずか3ミリ秒で高速認識を実現し、反復学習はわずか1行のコードで実行できます。 図1. PaddleClas画像分類アプリケーションの概略図 さっそくリンクを貼っておきます。詳しい方はぜひ試してみてください! https://github.com/PaddlePaddle/PaddleClas このページを失くさないように、必ずスターを付けてください。 もちろん、宣伝するだけではありません。このプロジェクトの優れた機能を詳しく分析してみましょう。 図2. 9つの主要シーンモデルの効果の模式図 ハイライト1:精度とスピードの完璧なバランス著名なResNet50から現在人気のSwin-Transformerに至るまで、モデルの精度は継続的に向上していますが、予測効率は依然として低いままです。Swin-Transformerの最小モデルでさえ、CPU上で予測を行うのに100ミリ秒以上かかり、産業界のリアルタイム予測ニーズを満たすには程遠い状況です。 MobileNet シリーズなどの軽量モデルを使用すると、CPU 上で約 3 ミリ秒で画像を予測するなど、高い予測効率を確保できますが、モデルの精度は大規模なモデルに比べて大幅に低くなることがよくあります。 PaddleClas の超軽量画像分類ソリューション (Practical Ultra Light Classification、または PULC) は、産業用アプリケーションにおけるアルゴリズムの精度と速度のバランスを取るという問題点を完璧に解決します。 表1 異なるモデルの精度と速度の結果の比較 図に示すように、その精度は Swin-Transformer などの大規模モデルに匹敵しますが、予測速度は 30 倍以上高速化でき、CPU での推論時間はわずか 2 ミリ秒です。 ハイライト2:非常に使いやすいPULCソリューションは、精度と速度を完璧に両立させるだけでなく、産業界の実践におけるカスタマイズされた迅速なアルゴリズム反復の必要性も十分に考慮しています。モデルのトレーニングはわずか1つのコマンドで完了します。 同時に、PaddleClasチームは、人、車両、OCRなどを含む9つのシナリオモデルもリリースしました。これらのモデルにより、わずか2ステップでビジネスPOC効果の検証が可能になり、トレーニングと推論から展開までシームレスなプロセスが提供され、真に「すぐに使える」ユーザビリティを実現します。 さらに、このプロジェクトには、詳細な中国語のユーザードキュメントと業界の実践例やチュートリアルも含まれています。 図3. 使用方法の文書と例の図解 ハイライト3:多数のコア技術の統合超軽量画像分類 (PULC) ソリューションは、業界をリードする 4 つの最適化戦略を統合しています。 図 4. 超軽量画像分類 (PULC) スキームの概略図。 PP-LCNet 軽量バックボーンネットワーク CPU向けにカスタマイズされたバックボーンネットワークモデルであるPP-LCNetは、速度と精度の点でMobileNetV3などの同規模のアルゴリズムをはるかに上回っています。複数のシナリオで最適化を行った結果、速度はSwinTransformerモデルの30倍以上、精度はMobileNetV3_small_0.35xよりも18ポイント高くなりました。 SSLD事前トレーニング済み重み SSLD半教師あり蒸留アルゴリズムにより、小規模モデルは大規模モデルから特徴を学習し、大規模なラベルなしImageNet22kデータセットから知識を学習できます。小規模モデルを学習する際に、SSLD事前学習済み重みを初期化パラメータとして使用することで、様々なアプリケーションシナリオにおける分類モデルの精度を1~2.5ポイント向上させることができます。 データ拡張戦略の統合 このソリューションは、画像変換、画像クロッピング、画像エイリアシングという3つのデータ拡張手法を統合しています。また、カスタマイズ可能なトリガー確率をサポートすることで、モデルの汎化能力を大幅に向上させ、実世界のシナリオにおけるパフォーマンスを向上させます。モデルの精度は、前のステップと比較して約1ポイント向上します。 SKL-UGI 知識蒸留アルゴリズム 対称KL(SKL)は、従来のKL知識蒸留アルゴリズムに対称情報を導入することで、その堅牢性を向上させます。さらに、このアプローチにより、ラベル付けされていない一般的な画像を学習プロセスに容易に組み込むことが可能になり、モデルのパフォーマンスがさらに向上します。このアルゴリズムにより、モデルの精度が1~2ポイント向上する可能性があります。 |