|
この記事は、AI関連ニュースメディアQuantumBit(WeChat ID: QbitAI)の許可を得て転載しています。転載の許可については、元の情報源にお問い合わせください。 携帯電話でも 120fps ディスプレイが使用され始めていますが、オンラインのビデオのほとんどはまだ 30fps のみです。 動画のフレームレートは一般のニーズを満たすには程遠いため、普通の動画を高フレームレートの動画に変換する方法を研究している人がたくさんいます。 昨年、NVIDIAは、通常のビデオから高フレームレートを「想像」し、30fpsから240fpsまで補間し、8倍に遅くしても目立った遅延がないSuper SloMoをオープンソース化しました。 最近、上海交通大学が開発した新しいフレーム補間アルゴリズム「DAIN」がオープンソース化されました。このアルゴリズムはNVIDIAのアルゴリズムよりも鮮明な結果と高いフレームレートを実現し、さらに30fpsから480fpsまで補間できるため、多くのスマートフォンのスローモーション録画フレームレートを上回ります。 さらに重要なのは、Nvidia の Super SloMo は実際のビデオにのみ使用されたのに対し、この研究は映画、ストップモーション アニメーション、漫画など、あらゆる一般的なタイプのビデオに拡張できるということです。 サイタマのマントもツルツルになりました。上記の効果が十分に明らかでないと思われる場合は、別のものを検討してください。 羽の動きがより滑らかで自然に見えませんか? 今後、DAIN がアニメーション制作に活用されれば、低フレームレートのアニメーションでも滑らかな効果を生み出せるようになり、イラストレーターの作業負荷を大幅に軽減できるのではないかと考えられます。 DAIN のコードはオープンソース化されており、研究者は AI の知識がないユーザーが直接使用できるようにWindows インストーラーをパッケージ化しました。 インストールWindows ユーザーは、すぐに入手できる .exe ファイル (記事の末尾のリンクを参照) を使用してソフトウェアをインストールできますが、現在はアルファ段階であるため、ソフトウェアが多少不安定な可能性があります。 他のプラットフォームのユーザーにとってもインストールは簡単です。 まず、PyTorch のバージョンが 1.0.0 以上であることを確認してから、プロジェクトをローカル マシンにクローンします。
さまざまな PyTorch 拡張パッケージをインストールします。
NVIDIA Predictive Optical Flow Network (PWCNet) ソフトウェア パッケージもインストールする必要があります。
著者らが既に事前学習済みのモデルを提供しているので、自分で学習させるのに多くの労力を費やす必要はありません。`model_weights` というディレクトリを作成し、事前学習済みモデルの重みを対応するフォルダにダウンロードしてください。
次のコマンドを実行して、ビデオへのフレームの補間を開始します。
`--time_step` の後のパラメータは、動画のスローダウン係数です。0.25 を指定すると、動画のフレームレートが元の 4 倍になります。8 倍と 10 倍のスローモーションを生成するには、パラメータをそれぞれ 0.125 と 0.1 に変更します。 深度と光学フローにより画像がより鮮明になる動画のフレームを補間するアルゴリズムはすでに数多く存在します。DAINはそれらとどう違うのでしょうか? DAIN は、Depth-Aware Video Frame Interpolation (深度認識ビデオフレーム補間) の略です。 ビデオフレーム補間の目的は、元のフレーム間に存在しないフレームを合成することです。しかし、大きな物体の動きや遮蔽の影響により、補間されたフレームの品質は通常比較的低くなります。 この研究では、研究者らは深度情報を探索することで遮蔽を検出する方法を提案した。 具体的には、著者らは、遠方の物体をサンプリングする中間フローを生成するために、深度を考慮したオプティカルフロー投影層を開発しました。さらに、隣接するピクセルからコンテキスト情報を収集するための階層化された特徴を学習しました。 上の図は DAIN のアーキテクチャを示しています。2 つの時点における 2 つの入力フレームが与えられると、最初にオプティカル フローおよび深度マップが推定され、次に提案された深度認識フロー投影レイヤーを使用して中間フローが生成されます。 次に、モデルは、オプティカルフローとローカル補間カーネルに基づいて入力フレーム、深度マップ、コンテキスト機能をワープし、出力フレームを合成します。 このモデルはコンパクトで効率的、かつ完全に微分可能です。定量的および定性的な結果は、DAINが様々なデータセットにおいて最先端のフレーム補間手法よりも優れていることを示しています。 著者この記事の筆頭著者である Bao Wenbo 氏は、上海交通大学電子情報電気工学学院の博士課程の学生です。
現在、画像/動画処理、コンピュータービジョン、機械学習を研究対象としています。また、ハードウェア設計、組み込みシステム、並列プログラミングにおいても豊富な経験を有しています。 ポータル論文リンク: https://sites.google.com/view/wenbobao/dain プロジェクトアドレス: https://github.com/baowenbo/DAIN Windows版ソフトウェアダウンロード: https://drive.google.com/file/d/1uuDkF4j4H1AI1ot88XdqzwMdvAPhxKN8/view |