|
テンセントAIラボは9月10日、「Tencent ML-Images」プロジェクトを9月末にオープンソース化すると発表した。このプロジェクトは、マルチラベル画像データセット「ML-Images」と、業界における類似のディープラーニングモデルの中で最も高い精度を誇るディープ残差ネットワーク「ResNet-101」で構成される。 このプロジェクトのオープンソース化は、テンセントAIラボがコンピュータービジョン分野で蓄積してきた基礎能力の公開を意味し、人工知能分野の研究者やエンジニアに、豊富で高品質な学習データと、使いやすく強力なディープラーニングモデルを提供することで、人工知能産業の共同発展を促進します。 テンセントAIラボが新たに公開したML-Images画像データセットには、1,800万枚の画像と11,000以上の一般的なオブジェクトカテゴリが含まれており、業界最大規模の公開マルチラベル画像データセットとなり、一般研究機関や中小企業のニーズを十分に満たします。さらに、テンセントAIラボは、ML-ImagesでトレーニングされたResNet-101ディープ残差ネットワークも提供します。このモデルは優れた視覚表現能力と汎化性能を誇り、業界の類似モデルの中でも最高の精度を達成しています。画像・動画処理を含む視覚タスクを強力にサポートし、画像分類、オブジェクト検出、オブジェクト追跡、セマンティックセグメンテーションなどの技術向上に貢献します。 ディープラーニング技術、特にディープニューラルネットワークは、多くの分野、特にコンピュータービジョンにおいて、画像や動画の分類、理解、生成といった重要なタスクにおいて、その優れた能力を遺憾なく発揮しています。しかし、ディープラーニングの視覚表現能力を最大限に発揮するには、十分な量の高品質な学習データ、優れたモデル構造と学習手法、そして強力なコンピューティングリソースが不可欠です。 大手テクノロジー企業は、AIの基礎機能の構築に注力しており、GoogleのJFT-300MやFacebookのInstagramデータセットなど、社内でのみ利用可能な大規模な画像データセットを作成しています。しかし、これらのデータセットとそれらを用いて学習されたモデルは公開されておらず、多くの研究機関や中小企業にとって、これらの基礎AI機能への参入障壁は非常に高くなっています。 現在、業界最大規模の公開マルチラベル画像データセットはGoogleのOpen Imagesで、900万枚の学習用画像と6,000以上のオブジェクトカテゴリが含まれています。Tencent AI LabのオープンソースML-Imagesデータセットは、1,800万枚の学習用画像と11,000以上の一般的なオブジェクトカテゴリを含んでおり、新たな業界ベンチマークデータセットとなる可能性を秘めています。Tencent AI Labチームは、データセットに加え、このオープンソースプロジェクトに関する詳細情報も提供します。 1) 画像ソース、候補画像カテゴリセット、カテゴリの意味的関係、画像アノテーションを含む大規模マルチラベル画像データセットの構築手法。ML-Imagesの構築において、チームはカテゴリの意味的関係を最大限に活用し、正確な画像アノテーションを支援しました。 2) ML画像に基づくディープニューラルネットワークの学習手法。チームが慎重に設計した損失関数と学習手法により、大規模なマルチラベルデータセットにおけるクラスの不均衡がモデル学習に及ぼす悪影響を効果的に抑制できます。 3) ML-Imagesで学習したResNet-101モデルは、優れた視覚表現能力と汎化性能を示しました。転移学習により、このモデルはImageNet検証セットにおいて80.73%というトップ1分類精度を達成し、同様のGoogleモデル(転移学習モード)の精度を上回りました。特筆すべきは、ML-ImagesのサイズがJFT-300Mの約17分の1に過ぎないことです。これは、ML-Imagesの高品質と学習方法の有効性を十分に示しています。詳細な比較は下の表に示されています。 注: Microsoft ResNet-101 モデルは非転送学習モードでトレーニングされたため、120 万枚の事前トレーニング済み画像は元の ImageNet データセットからの画像です。 テンセントAIラボがオープンソース化した「テンセントML-Images」プロジェクトは、基本的な人工知能機能の構築に対するテンセントの取り組みと、こうした基本的な機能の公開を通じて業界全体の発展を促進するというビジョンを示しています。 「テンセントML-Images」プロジェクトのディープラーニングモデルは、すでに「天天快報」の画質評価・推奨機能など、テンセントの多くの事業で重要な役割を果たしている。 下の画像に示すように、Daily Express ニュースの表紙画像の品質が大幅に向上しました。 最適化前 最適化後 さらに、テンセントAIラボチームは、Tencent ML-ImagesをベースとしたResNet-101モデルを、画像オブジェクト検出、画像セマンティックセグメンテーション、動画オブジェクトセグメンテーション、動画オブジェクトトラッキングなど、多くのビジョンタスクに応用しています。これらのビジョン応用タスクは、モデルの強力な視覚表現能力と優れた汎化性能をさらに検証しています。「Tencent ML-Images」プロジェクトは、今後、より多くのビジョン関連製品において重要な役割を果たすでしょう。 テンセントは2016年にGitHub(https://github.com/Tencent)でオープンソースプロジェクトを開始して以来、人工知能、モバイル開発、ミニプログラムなどの分野をカバーする57のオープンソースプロジェクトを蓄積してきました。オープンソースコミュニティへのさらなる貢献のため、テンセントはHyperledger、LF Networking、Open Networking Foundationに順次加盟し、LF Deep Learning Foundationの創設メンバー、Linux Foundationのプラチナメンバーとなりました。テクノロジー分野におけるテンセントの「オープン」戦略の具現化として、Tencent Open Sourceは、共有、再利用、オープンソース化に向けた技術研究開発を社内的に推進するとともに、対外的にはテンセントの研究開発能力を披露し、国内外のオープンソースコミュニティへの技術支援を提供し、研究開発の活力を注入していきます。 |