DUICUO

LEGO や IKEA の取扱説明書は難しすぎますか? Autodesk のオープンソース フレームワークが、この問題の解決に役立ちます。

レゴを愛する人や、レゴに詳しい人は、一部のレゴ製品が今では大人向けに設計され、子供向けの製品をはるかに超える複雑さになっていることをご存知でしょう。例えば、レゴ ミレニアム ファルコンとレゴ インペリアル スター デストロイヤーのセットは、それぞれ7541個と4784個のブロックで構成されています。多くの人が何ヶ月もかけて完成させています。これらのセットを組み立てたユーザーは、ブロックを見ると頭痛がしたり、手が震えたり、吐き気を催したりするなど、「気分が悪くなる」と言われています。

おもちゃで困惑したくないですか?この新しく開発された機械学習フレームワークを使えば、モデル全体をより直感的かつ簡単に組み立てることができます。

オートデスク、スタンフォード大学、MITの研究者たちは、人間の設計者が作成した画像ベースのステップバイステップの組み立てマニュアルを、機械が理解できる指示書に変換するという問題を研究しました。彼らはこの問題を、連続的な予測タスクとして定式化しました。つまり、各ステップでモデルはマニュアルを読み取り、現在の形状に追加するパーツを特定し、それらの3D空間における位置を推測します。課題は、マニュアル画像と実際の3Dオブジェクトとの間の「2Dから3D」への対応を確立すること、そして未知の3Dオブジェクトの3Dポーズを予測することです。これは、あるステップで追加される新しいパーツが、全く新しい構成要素である場合もあれば、以前のステップから組み立てられたオブジェクトである場合もあるためです(例えば、人体モデルの場合、指示書は通常、まず手足と頭を組み立て、次にそれらを本体に取り付けて全体を形成するようにユーザーに指示しますが、3Dプリントのように頭からつま先まで徐々に人体を形成するのとは異なります)。

これら2つの課題に対処するため、研究者らは、一連の手作業画像から組み立て手順を再構築する、学習ベースの新しいフレームワークMEPNet(Manual-to-Executable-Plan Network)を提案しました。その核となるアイデアは、ニューラル2Dキーポイント検出モジュールと2D-3D投影アルゴリズムを統合することで、高精度な予測と未知の部品の強力な汎化を実現することです。テストの結果、MEPNetは既存の手法よりも優れた性能を示すことが明らかになりました。

研究者によると、マニュアルの手順を機械が理解できる指示に解析する既存の方法は、主に2つのカテゴリーに分類されます。1つは検索ベースの方法で、これは単純で正確ですが、計算コストが高くなります。もう1つは学習ベースのモデルで、これは高速ですが、目に見えない3D形状の処理には適していません。MEPNetはこれら2つの方法を組み合わせています。

研究者たちは論文の中で、レゴセットの組み立てに利用されるだけでなく、複雑な物体の組み立てを支援する機械を開発することも目標としていると述べています。その応用範囲はレゴブロックだけでなく、IKEAの家具にも及びます。そのため、開発者はこのフレームワークを用いることで、一般的な家具の組み立て説明書よりもユーザーにとって分かりやすい組み立てマニュアルを作成できると期待されています。

MEPNet をテストしたい、PyTorch に精通しているユーザーは、GitHub でプロジェクトのコードを見つけることができます。

このフレームワークを開発した研究者たちは、研究を口実に密かにレゴで遊んでいたのではないかと強く疑っています。

この記事はOSCHINAから転載したものです。

タイトル: レゴやIKEAの取扱説明書は難しすぎる?Autodeskオープンソースフレームワークが解決を支援

この記事のアドレス:https://www.oschina.net/news/205150/lego-machine-learning-ai-framework