CVPR 2020 の論文とオープンソースプロジェクトを、コードと論文を含めて 1 ページにまとめました。

この記事は、AI関連ニュースメディアQuantumBit（WeChat ID: QbitAI）の許可を得て転載しています。転載の許可については、元の情報源にお問い合わせください。

CVPR 2020 採択論文のリリースに続いて、オープンソースプロジェクトの新しいコレクションもリリースされました。

今年のCPVRには6,656件の論文が寄せられ、そのうち1,470件が選ばれましたが、合格率はわずか22％で、過去10年間で最も難しい年となりました。

採択率の低さはさておき、選ばれた論文の中には、私たちが学び、模倣できる優れた論文が数多くあります。

本日、今年の CVPR 論文のオープンソースプロジェクトをまとめたプロジェクトが GitHub に登場しました。

この記事は、このGitHubプロジェクトに基づいて、CVPR 2020で選ばれた論文のオープンソースプロジェクトをまとめたものです。主な内容は次のとおりです。

ターゲット検出

論文タイトル:

適応型トレーニングサンプル選択によるアンカーベース検出とアンカーフリー検出のギャップを埋める

この記事ではまず、アンカーベースの検出とアンカーレス検出の本質的な違いを指摘します。この違いは、正と負のトレーニングサンプルの定義方法にあり、これが両者のパフォーマンスの差につながっています。

研究者らは、物体の統計的特性に基づいて正サンプルと負サンプルを自動的に選択する適応型トレーニングサンプル選択（ATSS）手法を提案しました。この手法は、アンカーベースとアンカーレスの両方の検出器の性能を大幅に向上させ、両者のギャップを埋めます。

最後に、ターゲットを検出するために画像上の各位置に複数のアンカーポイントをタイリングする必要性についても説明します。

論文リンク: https://arxiv.org/abs/1912.02424

コード: https://github.com/sfzhang15/ATSS

ターゲット追跡

論文タイトル:

MAST: 記憶を拡張した自己教師型トラッカー(注: 選択に関する不確実性)

この論文では、既存のベンチマークで従来の自己教師あり方式を大幅に上回り (+15%)、教師あり方式に匹敵するパフォーマンスを実現する高密度ビデオ追跡モデル(注釈なし) を提案します。

まず、詳細な実験を通して、自己教師あり学習と再構成損失に関する従来の選択肢を再評価します。次に、重要なメモリコンポーネントを使用してアーキテクチャを拡張することで、既存の手法をさらに改善します。次に、大規模な半教師ありビデオオブジェクトセグメンテーションのベンチマークを行い、新しい指標である「一般化可能性」を提案します。

論文リンク: https://arxiv.org/abs/2002.07793

コード: https://github.com/zlai0/MAST

インスタンスの分割

論文タイトル:

PolarMask: 極座標表現によるシングルショットインスタンスセグメンテーション

本論文では、シングルショットインスタンスセグメンテーションフレームワークであるPolarMask法を提案します。PolarMaskはFCOSをベースとし、FCNフレームワークの下でインスタンスセグメンテーションを統合します。

FCOS は本質的に FCN に基づく高密度予測検出フレームワークであり、アンカーベースのオブジェクト検出方法と同等のパフォーマンスを発揮できます。

貢献は、インスタンスセグメンテーションのより複雑な問題を、ネットワーク設計と計算の複雑さの点でオブジェクト検出と同じくらい複雑なタスクに変換し、インスタンスセグメンテーションのモデリングをシンプルかつ効率的にすることにあります。

論文リンク: https://arxiv.org/abs/1909.13226

コード: https://github.com/xieenze/PolarMask

その他の論文:

CenterMask: リアルタイムのアンカーフリーインスタンスセグメンテーション

論文リンク: https://arxiv.org/abs/1911.06667

コード: https://github.com/youngwanLEE/CenterMask

リアルタイムインスタンスセグメンテーションのためのDeep Snake

論文リンク: https://arxiv.org/abs/2001.01629

コード: https://github.com/zju3dv/snake

NAS

論文タイトル:

CARS: 効率的なニューラルアーキテクチャ探索のための継続的な進化

この論文では、研究者らはニューラルネットワークを探索するための効率的な連続進化法を開発しました。

最近の反復では、スーパーネット内のパラメータを共有する集団内のアーキテクチャが、複数エポックの訓練データセットに基づいて調整されています。次の進化反復における探索は、スーパーネットと集団の両方から直接継承されるため、最適なネットワークの生成が加速されます。さらに、非劣勢ランキング戦略が採用され、パレートフロントからの結果のみを保持することで、スーパーネットを正確に更新します。

0.4日間の継続的なGPU探索により、モデルサイズと性能が異なる複数のニューラルネットワークが生成されました。これらのネットワークは、ベンチマークとなるImageNetデータセットにおいて、最先端の手法で生成されたネットワークよりも優れた性能を示しました。

論文リンク: https://arxiv.org/abs/1909.04977

コード（近日オープンソース化予定）: https://github.com/huawei-noah/CARS

表情認識

論文タイトル:

大規模表情認識における不確実性の抑制

本論文では、不確実性を効果的に抑制し、深層ネットワークが不確実な顔画像に過剰適合するのを防ぐことができる、シンプルでありながら効果的な自己修復ネットワーク (SCN) を提案します。

具体的には、SCNは2つの異なる方法で不確実性を抑制します。(1)ミニバッチの自己注意メカニズムで、ランキング正規化を通じて各トレーニングサンプルに重み付けを行います。(2)再ラベル付けメカニズムで、最低ランクのグループのサンプルのラベルを変更します。

論文リンク: https://arxiv.org/abs/2002.10392

コード（近日オープンソース化予定）: https://github.com/kaiwang960112/Self-Cure-Network

人間の姿勢推定

2D人間の姿勢推定

論文タイトル:

悪魔は細部に宿る：人間の姿勢推定のための偏りのないデータ処理の探求

すべてのコンピュータービジョンタスクにはデータ処理が伴いますが、特にキーポイント検出においてはデータ処理が極めて重要です。キーポイント検出におけるデータ処理は体系的に研究されていないため、本稿では人間のキーポイント検出におけるデータ処理に焦点を当て、それがアルゴリズムの極めて重要な要素であると主張します。

この問題を体系的に分析した結果、現段階では既存の最先端手法すべてに2つの主要な問題があることが判明しました。第一に、テストにおいてフリップアンサンブルを用いた場合、反転画像から得られた結果が元の画像と一致しないという問題です。第二に、使用されているエンコード・デコード手法には重大な統計誤差があります。

これら 2 つの問題は相互に関連しており、その結果、推定結果が不正確になること、指標の再現が困難になること、実験結果と結論が信頼できない可能性が高くなることなどが生じます。

論文リンク: https://arxiv.org/abs/1911.07524

コード: https://github.com/HuangJunJie2017/UDP-Pose

その他の論文:

人間の姿勢推定のための分布を考慮した座標表現

論文リンク: https://arxiv.org/abs/1910.06278

コード: https://github.com/ilovepose/DarkPose

3D人間姿勢推定

論文タイトル:

VIBE: 人体の姿勢と形状を推定するためのビデオ推論

トレーニング用のグラウンドトゥルース 3D モーションデータが不足しているため、既存の最先端のビデオベースの方法では、正確で自然なモーションシーケンスを生成することができません。

この問題に対処するために、本論文では、既存の Large Motion Capture Dataset (AMASS) とペアになっていない、実際の 2D キーポイント注釈を活用する、Video Inference for Body Pose and Shape Estimation (VIBE) を提案します。

重要な革新は、AMASS を使用して実際の人間の行動と時間的ポーズおよび形状回帰ネットワークによって生成された行動を区別する敵対的学習フレームワークです。

論文リンク: https://arxiv.org/abs/1912.05656

コード: https://github.com/mkocabas/VIBE

その他の論文:

複数人物の3Dポーズ推定のための圧縮ボリュームヒートマップ

紙の住所: 入手不可

コード: https://github.com/anonymous-goat/CVPR-2020

点群

点群分類

論文タイトル:

PointAugment: ポイントクラウド分類のための自動拡張フレームワーク

この論文では、分類ネットワークのトレーニング中にポイントクラウドサンプルを自動的に最適化および拡張して、データの多様性を豊かにする新しい自動拡張フレームワーク PointAugment を提案します。

形状変換とポイント変位を備えた学習可能なポイント拡張関数も確立され、分類器の学習プロセスに基づいて拡張サンプルを取得するための損失関数が慎重に設計されました。

論文リンク: https://arxiv.org/abs/2002.10876

コード（近日オープンソース化予定）: https://github.com/liruihui/PointAugment/

シーンテキスト検出/認識

論文タイトル:

ABCNet: 適応型ベジェ曲線ネットワークによるリアルタイムシーンテキストスポッティング

本論文では、適応型ベジェ曲線ネットワーク（ABCNet）を提案する。その主な貢献は、（1）パラメータ化されたベジェ曲線を使用して任意の形状のテキストを適応的にフィッティングする初めての技術、（2）任意の形状のテキストインスタンスの正確な畳み込み特徴を抽出するための新しいBezierAlignレイヤーの設計、（3）この方法は効率性と精度の両方において優れている、などである。

論文リンク: https://arxiv.org/abs/2002.10200

コード（近日オープンソース化予定）: https://github.com/Yuliang-Liu/bezier_curve_text_spotting https://github.com/aim-uofa/adet

超解像度

ビデオ超解像度

論文タイトル:

ズームスローモーション：高速かつ正確なワンステージ空間時間ビデオ超解像

この論文では、低フレームレート (LFR) および低解像度 (LR) ビデオから高解像度 (HR) スローモーションビデオを生成することを目的とした時空間ビデオ超解像度タスクについて説明します。

研究者らは、LFR ビデオと LR ビデオからの HR スローモーションビデオの直接合成に基づく、単一レベルの時空間ビデオ超解像度フレームワークを提案しました。

さらに、時間情報を同時に整列・集約することで、グローバルな時間的コンテキストをより有効に活用するための変形可能な凸STMを提案する。最後に、深層再構成ネットワークを用いてHRスローモーションビデオフレームを予測する。

論文リンク: https://arxiv.org/abs/2002.11616

コード: https://github.com/Mukosame/Zooming-Slow-Mo-CVPR-2020

視覚言語ナビゲーション

論文タイトル:

事前学習による視覚と言語によるナビゲーションのための汎用エージェントの学習に向けて

この論文では、視覚および言語ナビゲーション (VLN) タスクのための最初の事前トレーニングおよび微調整パラダイムを紹介します。

多数の画像・テキスト・アクションの組み合わせを自己教師学習方式でトレーニングすることにより、事前トレーニング済みモデルは視覚環境と言語指示の一般的な表現を提供します。

論文リンク: https://arxiv.org/abs/2002.10638

コード（近日オープンソース化予定）: https://github.com/weituo12321/PREVALENT

他の

GhostNet: Cheap Operations のさらなる機能

論文リンク: https://arxiv.org/abs/1911.11907

コード: https://github.com/iamhankai/ghostnet

AdderNet: ディープラーニングで乗算は本当に必要か?

論文リンク: https://arxiv.org/abs/1912.13200

コード: https://github.com/huawei-noah/AdderNet

ドメイン検証によるディープイメージハーモナイゼーション

論文リンク: https://arxiv.org/abs/1911.13239

コード: https://github.com/bcmi/Image_Harmonization_Datasets

その他の GitHub 論文プロジェクトリンク:

https://github.com/charlesCXK/3D-SketchAware-SSC

https://github.com/Anonymous20192020/Anonymous_CVPR5767

https://github.com/avirambh/ScopeFlow

https://github.com/csbhr/CDVD-TSP

https://github.com/ymcidence/TBH

https://github.com/yaoyao-liu/mnemonics

https://github.com/meder411/Tangent-Images

https://github.com/KaihuaTang/シーングラフベンチマーク.pytorch

https://github.com/sjmoran/deep_local_parametric_filters

https://github.com/charlesCXK/3D-SketchAware-SSC

https://github.com/bermanmaxim/AOWS

最後に、このプロジェクトはWeChat公式アカウントCVerの編集者であるAmusiによってまとめられました。CVPR 2020では、専門家の皆様からの課題の提出やオープンソースプロジェクトの共有も歓迎いたします。

ポータル

GitHub プロジェクトアドレス:
https://github.com/amusi/CVPR2020-コード

DUICUO

CVPR 2020 の論文とオープンソースプロジェクトを、コードと論文を含めて 1 ページにまとめました。

ターゲット検出

ターゲット追跡

インスタンスの分割

NAS

表情認識

人間の姿勢推定

2D人間の姿勢推定

3D人間姿勢推定

点群

点群分類

シーンテキスト検出/認識

超解像度

ビデオ超解像度

視覚言語ナビゲーション

他の

ポータル

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ