|
この記事は、AI関連ニュースメディアQuantumBit(WeChat ID: QbitAI)の許可を得て転載しています。転載の許可については、元の情報源にお問い合わせください。 CVPR 2020 採択論文のリリースに続いて、オープンソース プロジェクトの新しいコレクションもリリースされました。 今年のCPVRには6,656件の論文が寄せられ、そのうち1,470件が選ばれましたが、合格率はわずか22%で、過去10年間で最も難しい年となりました。 採択率の低さはさておき、選ばれた論文の中には、私たちが学び、模倣できる優れた論文が数多くあります。 本日、今年の CVPR 論文のオープンソース プロジェクトをまとめたプロジェクトが GitHub に登場しました。 この記事は、このGitHubプロジェクトに基づいて、CVPR 2020で選ばれた論文のオープンソースプロジェクトをまとめたものです。主な内容は次のとおりです。 ターゲット検出論文タイトル: 適応型トレーニングサンプル選択によるアンカーベース検出とアンカーフリー検出のギャップを埋める この記事ではまず、アンカーベースの検出とアンカーレス検出の本質的な違いを指摘します。この違いは、正と負のトレーニング サンプルの定義方法にあり、これが両者のパフォーマンスの差につながっています。 研究者らは、物体の統計的特性に基づいて正サンプルと負サンプルを自動的に選択する適応型トレーニングサンプル選択(ATSS)手法を提案しました。この手法は、アンカーベースとアンカーレスの両方の検出器の性能を大幅に向上させ、両者のギャップを埋めます。 最後に、ターゲットを検出するために画像上の各位置に複数のアンカー ポイントをタイリングする必要性についても説明します。 論文リンク: https://arxiv.org/abs/1912.02424 コード: https://github.com/sfzhang15/ATSS ターゲット追跡論文タイトル: MAST: 記憶を拡張した自己教師型トラッカー(注: 選択に関する不確実性) この論文では、既存のベンチマークで従来の自己教師あり方式を大幅に上回り (+15%)、教師あり方式に匹敵するパフォーマンスを実現する高密度ビデオ追跡モデル(注釈なし) を提案します。 まず、詳細な実験を通して、自己教師あり学習と再構成損失に関する従来の選択肢を再評価します。次に、重要なメモリコンポーネントを使用してアーキテクチャを拡張することで、既存の手法をさらに改善します。次に、大規模な半教師ありビデオオブジェクトセグメンテーションのベンチマークを行い、新しい指標である「一般化可能性」を提案します。 論文リンク: https://arxiv.org/abs/2002.07793 コード: https://github.com/zlai0/MAST インスタンスの分割論文タイトル: PolarMask: 極座標表現によるシングルショットインスタンスセグメンテーション 本論文では、シングルショットインスタンスセグメンテーションフレームワークであるPolarMask法を提案します。PolarMaskはFCOSをベースとし、FCNフレームワークの下でインスタンスセグメンテーションを統合します。 FCOS は本質的に FCN に基づく高密度予測検出フレームワークであり、アンカーベースのオブジェクト検出方法と同等のパフォーマンスを発揮できます。 貢献は、インスタンス セグメンテーションのより複雑な問題を、ネットワーク設計と計算の複雑さの点でオブジェクト検出と同じくらい複雑なタスクに変換し、インスタンス セグメンテーションのモデリングをシンプルかつ効率的にすることにあります。 論文リンク: https://arxiv.org/abs/1909.13226 コード: https://github.com/xieenze/PolarMask その他の論文: CenterMask: リアルタイムのアンカーフリーインスタンスセグメンテーション 論文リンク: https://arxiv.org/abs/1911.06667 コード: https://github.com/youngwanLEE/CenterMask リアルタイムインスタンスセグメンテーションのためのDeep Snake 論文リンク: https://arxiv.org/abs/2001.01629 コード: https://github.com/zju3dv/snake NAS論文タイトル: CARS: 効率的なニューラルアーキテクチャ探索のための継続的な進化 この論文では、研究者らはニューラルネットワークを探索するための効率的な連続進化法を開発しました。 最近の反復では、スーパーネット内のパラメータを共有する集団内のアーキテクチャが、複数エポックの訓練データセットに基づいて調整されています。次の進化反復における探索は、スーパーネットと集団の両方から直接継承されるため、最適なネットワークの生成が加速されます。さらに、非劣勢ランキング戦略が採用され、パレートフロントからの結果のみを保持することで、スーパーネットを正確に更新します。 0.4日間の継続的なGPU探索により、モデルサイズと性能が異なる複数のニューラルネットワークが生成されました。これらのネットワークは、ベンチマークとなるImageNetデータセットにおいて、最先端の手法で生成されたネットワークよりも優れた性能を示しました。 論文リンク: https://arxiv.org/abs/1909.04977 コード(近日オープンソース化予定): https://github.com/huawei-noah/CARS 表情認識論文タイトル: 大規模表情認識における不確実性の抑制 本論文では、不確実性を効果的に抑制し、深層ネットワークが不確実な顔画像に過剰適合するのを防ぐことができる、シンプルでありながら効果的な自己修復ネットワーク (SCN) を提案します。 具体的には、SCNは2つの異なる方法で不確実性を抑制します。(1)ミニバッチの自己注意メカニズムで、ランキング正規化を通じて各トレーニングサンプルに重み付けを行います。(2)再ラベル付けメカニズムで、最低ランクのグループのサンプルのラベルを変更します。 論文リンク: https://arxiv.org/abs/2002.10392 コード(近日オープンソース化予定): https://github.com/kaiwang960112/Self-Cure-Network 人間の姿勢推定2D人間の姿勢推定論文タイトル: 悪魔は細部に宿る:人間の姿勢推定のための偏りのないデータ処理の探求 すべてのコンピュータービジョンタスクにはデータ処理が伴いますが、特にキーポイント検出においてはデータ処理が極めて重要です。キーポイント検出におけるデータ処理は体系的に研究されていないため、本稿では人間のキーポイント検出におけるデータ処理に焦点を当て、それがアルゴリズムの極めて重要な要素であると主張します。 この問題を体系的に分析した結果、現段階では既存の最先端手法すべてに2つの主要な問題があることが判明しました。第一に、テストにおいてフリップアンサンブルを用いた場合、反転画像から得られた結果が元の画像と一致しないという問題です。第二に、使用されているエンコード・デコード手法には重大な統計誤差があります。 これら 2 つの問題は相互に関連しており、その結果、推定結果が不正確になること、指標の再現が困難になること、実験結果と結論が信頼できない可能性が高くなることなどが生じます。 論文リンク: https://arxiv.org/abs/1911.07524 コード: https://github.com/HuangJunJie2017/UDP-Pose その他の論文: 人間の姿勢推定のための分布を考慮した座標表現 論文リンク: https://arxiv.org/abs/1910.06278 コード: https://github.com/ilovepose/DarkPose 3D人間姿勢推定論文タイトル: VIBE: 人体の姿勢と形状を推定するためのビデオ推論 トレーニング用のグラウンドトゥルース 3D モーション データが不足しているため、既存の最先端のビデオベースの方法では、正確で自然なモーション シーケンスを生成することができません。 この問題に対処するために、本論文では、既存の Large Motion Capture Dataset (AMASS) とペアになっていない、実際の 2D キーポイント注釈を活用する、Video Inference for Body Pose and Shape Estimation (VIBE) を提案します。 重要な革新は、AMASS を使用して実際の人間の行動と時間的ポーズおよび形状回帰ネットワークによって生成された行動を区別する敵対的学習フレームワークです。 論文リンク: https://arxiv.org/abs/1912.05656 コード: https://github.com/mkocabas/VIBE その他の論文: 複数人物の3Dポーズ推定のための圧縮ボリュームヒートマップ 紙の住所: 入手不可 コード: https://github.com/anonymous-goat/CVPR-2020 点群点群分類論文タイトル: PointAugment: ポイントクラウド分類のための自動拡張フレームワーク この論文では、分類ネットワークのトレーニング中にポイント クラウド サンプルを自動的に最適化および拡張して、データの多様性を豊かにする新しい自動拡張フレームワーク PointAugment を提案します。 形状変換とポイント変位を備えた学習可能なポイント拡張関数も確立され、分類器の学習プロセスに基づいて拡張サンプルを取得するための損失関数が慎重に設計されました。 論文リンク: https://arxiv.org/abs/2002.10876 コード(近日オープンソース化予定): https://github.com/liruihui/PointAugment/ シーンテキスト検出/認識論文タイトル: ABCNet: 適応型ベジェ曲線ネットワークによるリアルタイムシーンテキストスポッティング 本論文では、適応型ベジェ曲線ネットワーク(ABCNet)を提案する。その主な貢献は、(1)パラメータ化されたベジェ曲線を使用して任意の形状のテキストを適応的にフィッティングする初めての技術、(2)任意の形状のテキストインスタンスの正確な畳み込み特徴を抽出するための新しいBezierAlignレイヤーの設計、(3)この方法は効率性と精度の両方において優れている、などである。 論文リンク: https://arxiv.org/abs/2002.10200 コード(近日オープンソース化予定): https://github.com/Yuliang-Liu/bezier_curve_text_spotting https://github.com/aim-uofa/adet 超解像度ビデオ超解像度論文タイトル: ズームスローモーション:高速かつ正確なワンステージ空間時間ビデオ超解像 この論文では、低フレーム レート (LFR) および低解像度 (LR) ビデオから高解像度 (HR) スローモーション ビデオを生成することを目的とした時空間ビデオ超解像度タスクについて説明します。 研究者らは、LFR ビデオと LR ビデオからの HR スローモーション ビデオの直接合成に基づく、単一レベルの時空間ビデオ超解像度フレームワークを提案しました。 さらに、時間情報を同時に整列・集約することで、グローバルな時間的コンテキストをより有効に活用するための変形可能な凸STMを提案する。最後に、深層再構成ネットワークを用いてHRスローモーションビデオフレームを予測する。 論文リンク: https://arxiv.org/abs/2002.11616 コード: https://github.com/Mukosame/Zooming-Slow-Mo-CVPR-2020 視覚言語ナビゲーション論文タイトル: 事前学習による視覚と言語によるナビゲーションのための汎用エージェントの学習に向けて この論文では、視覚および言語ナビゲーション (VLN) タスクのための最初の事前トレーニングおよび微調整パラダイムを紹介します。 多数の画像・テキスト・アクションの組み合わせを自己教師学習方式でトレーニングすることにより、事前トレーニング済みモデルは視覚環境と言語指示の一般的な表現を提供します。 論文リンク: https://arxiv.org/abs/2002.10638 コード(近日オープンソース化予定): https://github.com/weituo12321/PREVALENT 他のGhostNet: Cheap Operations のさらなる機能 論文リンク: https://arxiv.org/abs/1911.11907 コード: https://github.com/iamhankai/ghostnet AdderNet: ディープラーニングで乗算は本当に必要か? 論文リンク: https://arxiv.org/abs/1912.13200 コード: https://github.com/huawei-noah/AdderNet ドメイン検証によるディープイメージハーモナイゼーション 論文リンク: https://arxiv.org/abs/1911.13239 コード: https://github.com/bcmi/Image_Harmonization_Datasets その他の GitHub 論文プロジェクト リンク: https://github.com/charlesCXK/3D-SketchAware-SSC https://github.com/Anonymous20192020/Anonymous_CVPR5767 https://github.com/avirambh/ScopeFlow https://github.com/csbhr/CDVD-TSP https://github.com/ymcidence/TBH https://github.com/yaoyao-liu/mnemonics https://github.com/meder411/Tangent-Images https://github.com/KaihuaTang/シーングラフベンチマーク.pytorch https://github.com/sjmoran/deep_local_parametric_filters https://github.com/charlesCXK/3D-SketchAware-SSC https://github.com/bermanmaxim/AOWS 最後に、このプロジェクトはWeChat公式アカウントCVerの編集者であるAmusiによってまとめられました。CVPR 2020では、専門家の皆様からの課題の提出やオープンソースプロジェクトの共有も歓迎いたします。 ポータルGitHub プロジェクト アドレス: |
CVPR 2020 の論文とオープンソース プロジェクトを、コードと論文を含めて 1 ページにまとめました。
関連するおすすめ記事
-
スキル習得!オープンソースのOSESSC HIDSをUbuntuにインストールする
-
Windows 10 向けの無料オープンソース アプリケーション 8 選
-
このオープンソース プロジェクトでは、女神を征服するために知っておく必要のあるすべてのことを説明します。
-
オープンソース プラットフォームである OpenHarmony は、みんなの OpenHarmony です。
-
Microsoft Azure Managed Grafana が完全に利用可能になり、インフラストラクチャの潜在的な技術的問題を綿密に監視できるようになりました。
-
HarmonyOSオープンソースのサードパーティコンポーネント - Parceler_ohos、シリアル化およびデシリアル化カプセル化コンポーネント