|
この記事はWeChat公式アカウント「自動運転ハート」の許可を得て転載しています。転載の許可については、元の情報源にお問い合わせください。 序文と私の個人的な理解本論文では、自動運転(AD)ソフトウェアシステムのテストに用いる、NeRFベースの汎用シミュレータを紹介する。このシミュレータは、現実的なセンサー閉ループ評価と安全性重視のシナリオ作成に重点を置いて設計されている。このシミュレータは、実世界の運転センサーデータシーケンスを学習し、新たなシナリオを再構成・レンダリングすることができる。本研究では、提案するシミュレータを用いて、安全性重視のシナリオに対するADモデルの応答をテストする。評価の結果、最先端のエンドツーエンドプランナーは、オープンループ環境における標準的な運転シナリオでは良好な性能を発揮する一方で、閉ループ環境における安全性重視のシナリオをナビゲートする際には、無視できない欠陥を示すことが示された。これは、安全性と実世界での使いやすさの両面において、エンドツーエンドプランナーの進歩の必要性を浮き彫りにしている。当社のシミュレーターとシナリオを簡単に実行できる評価スイートとして公開することで、制御されながらも高度に構成可能で困難なセンサーの現実世界の環境で、エンドツーエンドのモデルを探索、改良、検証することをコミュニティに呼びかけています。 オープンソースリンク: https://github.com/atonderski/neuro-ncap 要約すると、この論文の主な貢献は次のとおりです。
関連研究のレビューエンドツーエンドの運転モデル:従来、自動運転タスクは、知覚、予測、計画などの異なるモジュールに分割され、それぞれが個別に構築されています。Huらは、この分割には、モジュール間での情報損失、エラーの蓄積、機能の不整合など、多くの欠点があると主張しています。Jiangらは、計画モジュールが、手作りのインターフェースには存在しないセンサーデータからの意味情報にアクセスする必要がある場合があることを強調しています。どちらの研究も、エンドツーエンドの計画を継続的にサポートしています。Pomerlauらの先駆的な研究では、単一のニューラルネットワークをトレーニングしてセンサー入力を出力軌道にマッピングするプランナーを提案しました。ニューラルネットワークの数十年にわたる進歩により、エンドツーエンドの計画への関心が新たに高まっています。しかし、これらのプランナーはブラックボックスであるため、最適化が難しく、結果の解釈も困難です。HuらとJiangらは、モジュラーアプローチに対応する、中間出力を持つ2つのエンドツーエンドのニューラルネットワークプランナーを提案しました。プランナーは複数のモジュールに分かれていますが、モジュールインターフェースは学習され、ディープフィーチャベクトルで構成されています。 エンドツーエンドプランナーのオープンループ評価:Pomerleauらは、実世界のテスト車両を運転させることで、自らの運転モデルを評価しました。この設定では、大規模なテストはコストがかかり、結果の再現が困難です。エンドツーエンドプランニングにおける最近の研究は、オープンループでの評価へと移行しています。オープンループでは、モデルは記録されたセンサーデータに基づいて計画を予測します。予測された計画は決して実行されず、代わりに、アクションは記録されたデータに固定されます。この設定は、完全な知覚を前提とし、静的環境のマップと動的物体の軌道をモデルに入力する目標レベルのプランニング研究にも用いられています。このオープンループ評価は、評価と実世界での展開の間にギャップを生み出します。さらに、パフォーマンスは、記録された予測計画と車両の実際の運転軌道との距離として測定されることがよくあります。誤差ゼロは人間レベルの運転に相当しますが、誤差が小さいほど良いとは限りません。これは、2つの異なる軌道が同等に良いシナリオを検討することで実現できます。Codevillaらは、誤差ゼロが人間レベルの運転に相当すると報告しています。これらの問題を調査し、オープンループ評価は必ずしも実際の運転品質と相関関係にあるわけではないことを発見しました。Daunerらも同様の結論に達しました。 閉ループ評価とシミュレーション:上述の開ループ評価の問題を考慮すると、閉ループシミュレーションは非常に魅力的になります。オブジェクトレベルのシミュレータはいくつか提案されていますが、これらのシミュレータはセンサーデータを生成しないため、閉ループでエンドツーエンドのプランナーをテストすることは不可能です。多くの手作りのグラフィカルシミュレータが提案されていますが、このようなシミュレータは2つの課題に直面しています。リアルな画像を作成することが難しいことと、現実世界の多様性を捉えるグラフィカルアセットを作成することが難しいことです。世界モデルの研究では、シーン(例えばAtariゲーム)の未来を潜在空間で予測し、潜在空間のベクトルをセンサー入力にデコードできることが示されています。Huらは、大規模な実世界の自動車データセットを用いて世界モデルを構築しました。AminiらはVISTAを提案しました。VISTAでは、深度を予測し、最新の画像を逆投影して再投影することで、局所的な軌跡を中心に新しいビューが合成されます。Yangらは、VISTAの深度予測モデルを提案しました。VISTAは、深度予測、最新の画像の再投影、再投影によって、局所的な軌跡を中心に新しいビューを合成します。シーンに対するリアルなセンサー入力を作成するために、Neural Radiation Fields(NeRF)を用いることを提案した。この手法はその後Tonderskiらによって改良され、特にここで検討している360度設定において、より正確なセンサーモデリングと高いレンダリング品質が実現された。 新車アセスメントプログラム(NCAP):米国運輸省の国家道路交通安全局(NHTSA)によって1979年に導入されたNCAPは、消費者に自動車の相対的な安全ポテンシャルに関する情報を提供することを目的としています。NCAPは車両の衝突試験を実施し、重傷を負う可能性に基づいて採点します。同様の欧州プロトコルであるユーロNCAPは、1996年に提案されました。2009年、ユーロNCAPは全面的な見直しを行い、新興の衝突回避システムの試験を組み込むことになりました。当初は横滑り防止装置(ESC)や速度制限支援システムなどが含まれていましたが、後に自動緊急ブレーキや自動緊急操舵などのシステムも対象に拡大されました。本研究では、ユーロNCAPの自動衝突回避評価プロトコルを参考にしました。このプロトコルは、介入を行わなければ衝突が発生するシナリオを提示します。満点を獲得するには、車両はブレーキをかけるかステアリングを切って事故を回避する必要があります。衝突速度が十分に低下した場合は、部分的な得点が与えられます。 方法の詳細な説明閉ループシミュレーション私たちの閉ループシミュレーションは、4つのステップを反復的に実行します。まず、自車両の状態とカメラキャリブレーションに基づいて、高品質のカメラ入力がレンダリングされます。レンダラーは、走行車両のログに基づいて構築されます。次に、レンダリングされたカメラ入力と自車両の状態に基づいて、エンドツーエンドプランナーが自車両の将来の軌道を予測します。3つ目に、コントローラーが計画された軌道を一連の制御入力に変換します。4つ目に、制御入力が与えられた車両モデルは、自車両の状態を時間の経過とともに伝播させます。このプロセスは図2に示されています。以下では、4つのステップそれぞれについて詳しく説明していきます。 ニューラル レンダラー: 新しいセンサー データをシミュレートするために、ニューラル レンダラーを採用しました。NeRF は、収集された実世界データのログから 3D 環境の暗黙的な表現を学習します。トレーニングが完了すると、NeRF はシーンからリアルで新しいセンサー ビューをレンダリングできます。最近の進歩により、対応する 3D 境界ボックスを変更することで、動的なオブジェクトを編集できるようになりました。具体的には、参加者を削除、追加、または新しい軌道に従うように設定できます。これにより、私たちのケースでは、安全性が重要なシナリオを作成できます。たとえば、まれではあるものの重要な安全性のシナリオをシミュレートするために、もともと隣接車線を走行していた車両を静止させ、自車と同じ車線に配置することができます。この新しい状況では、車両がブレーキをかけるか、正確な追い越し操作を行う必要があります。 2点ほど留意すべき点があります。まず、最近提案されたNeuRADはLiDARデータのレンダリングもサポートしています。しかし、最先端のエンドツーエンドプランナーはカメラデータのみを使用するため、本研究ではカメラデータのみに焦点を当てています。次に、実験で実証したように、最新のNeRFと実データの間に生じるドメインギャップは十分に小さく、エンドツーエンドプランナーの認識部分は依然として高いパフォーマンスで動作可能です。しかし、今後ニューラルレンダリングが進歩するにつれて、このギャップはさらに縮小すると期待されます。 ADモデル:エンドツーエンドの計画に関する最近の研究では、(i) 生のセンサーデータ、(ii) 車両の状態、(iii) 計画された軌道を予測する高レベルの計画、これらを利用するシステムが説明されています。計画された軌道には、一定の頻度と一定の時間範囲内で設定されるウェイポイントが含まれます。本研究の主な目的は最先端のエンドツーエンドの計画ツールを分析することですが、このモジュールは、モジュラー型の検出器-追跡-計画ツールパイプラインなど、あらゆるタイプの計画ツールに置き換えることができる点に留意してください。 コントローラ:車両モデルを適用するには、ウェイポイントを、操舵角(δ)と加速度(a)の一連のコマンドに対応する一連の制御信号に変換する必要があります。Caesarらに倣い、線形二次レギュレータ(LQR)を用いてこれを実装しました。ここではウェイポイントを出力するプランナのみを解析していますが、プランナは一連の制御信号を直接出力することも可能です。 車両モデル:計画された軌道によって生成される一連の制御信号が与えられると、車両の状態は時間とともに伝播します。このモデル化には、前述の閉ループシミュレータに倣い、自転車の運動モデルの離散バージョンを使用します。これは以下のように正式に記述できます。 評価する一般的な評価手法(大規模データセットにおける平均的なパフォーマンスなど)とは異なり、本研究では、慎重に設計された安全性が極めて重要なシナリオの小さなサブセットに焦点を絞って評価を行います。これらのシナリオは非常に綿密に作成されているため、すべてのシナリオを正常に処理できないモデルは安全ではないと判断されます。業界標準のEuro NCAPテスト(セクション2参照)を参考に、衝突対象となる参加者の挙動によって特徴付けられる3種類のシナリオ(静止、正面、側面)を定義します。Euro NCAPの命名法に従い、この参加者をターゲット参加者と呼びます。目標は、車両を制御してターゲット参加者との衝突を回避するか、少なくとも衝突速度を低減することです。 シーンタイプごとに、複数のシーンを作成します。各シーンは、約 20 秒間の実際の運転から収集されたデータに基づいています。車両とターゲット参加者の状態は、現在の速度とステアリング角度が維持された場合、約 4 秒後に衝突が発生するように初期化されます。すべての非静止アクターはシーンから削除され、アクターがリアルなレンダリングを生成するために十分な距離と必要な角度で観察されているかどうかを考慮して、ランダムに 1 人のアクターがターゲット アクターとして選択されます。レンダラーは静止した参加者に制限されているため、この選択から歩行者は除外します。最後に、特定のシーン内で、ターゲット アクターの位置、回転、速度を一定の間隔でランダムにジッタします。評価中は、各シーンを多数回実行し (固定ランダム シードを使用)、平均結果を計算します。次に、各シーンタイプの特徴について説明します。 静的:これは比較的シンプルなシーンで、静止したターゲットアクターが車道に配置されています。ターゲット車両は自由に回転・配置できますが、シーン全体を通して静止したままです。つまり、ドライバーは衝突を回避するために急ブレーキや急ハンドル操作を行うことができます。図3aを参照してください。 正面図:正面シナリオでは、目標物体が反対方向に走行し、衝突経路に沿って自車両の車線に侵入します。そのため、自車両は車線変更によって衝突を回避することはできず、衝突速度を低下させることしかできません。衝突を完全に回避するには、自車両はステアリング操作を行う必要があります。図3bを参照してください。 側面衝突:側面衝突のシナリオは、対象者が車線を垂直に横切ることで発生します。車両の現在速度が一定であれば、側面衝突が発生します。車両は、接近してくる対象者に対してブレーキをかけるか、対象者を追い越す際にわずかにステアリングを操作することで衝突を回避できます。図3cを参照してください。 NeuroNCAPスコア:各シナリオごとにスコアが算出されます。衝突を完全に回避した場合、満点となります。衝突速度の低減に成功した場合は、部分点が付与されます。Euro NCAPの5つ星評価システムの精神に基づき、NeuroNCAPスコア(NNS)は以下のように算出されます。 実験データセット:自動運転向けのデータセットは数多く存在しますが、nuScenesはエンドツーエンドの計画に最も広く適応しています。高度にインタラクティブなシナリオを備えた都市環境を特徴としており、安全性を最重視するシナリオ生成に最適です。その幅広い適応性により、評価対象のモデルの公式実装とネットワーク重みを使用することもできます。NuScenesは1000のシーケンスに分割されており、そのうち150は検証用に予約されています。これらの150のシーケンスから、シナリオ内のエージェントの行動に基づいて適切と判断された14の異なるシーケンスを、安全性を最重視するシナリオのベースとして選択しました。 シナリオ:各シナリオは、特定のシーケンスに適した参加者、最も合理的な衝突軌道、そして様々なランダム化の許容範囲を考慮し、手作業で設計されています。評価では、各シナリオを100回(固定のランダムシードを使用)実行し、結果を平均化します。すべてのシーケンスがすべてのシナリオタイプに適しているわけではありません。例えば、直線道路での現実的な側面衝突をシミュレートすることはできません。そのため、各シナリオタイプに適したシーケンスを選択します。各シナリオの詳細と定性的な例については、補足資料を参照してください。 ニューラルレンダラー:レンダラーには、自動運転向けに特別に開発されたSotAニューラルレンダラーであるNeuRADを選択しました。これはnuScenesとの相性が実証されています。再構成品質を最大限に高めるため、より大規模な構成(NeuRAD-L)を使用し、デフォルトのハイパーパラメータで10万ステップの学習を行いました。nuScenesのポーズ情報は鳥瞰図に限定されているため、ポーズ最適化によって失われた情報を回復しました。最後に、俳優を対称軸に沿って反転させることで、あらゆる視点から俳優をリアルにレンダリングしました。 AD モデル: 提案する評価プロトコルに従って、既存の 2 つの SotA エンドツーエンド駆動モデル (UniAD と VAD) を評価しました。どちらの場合も、モデル構成を変更せずに同じデータセットでトレーニングした、著者が提供した事前トレーニング済みの重みを使用しました。両方のモデルは、360° カメラ入力、CAN バス信号、および高レベル コマンド (右、左、または直進) を消費し、次の 3 秒間にわたる一連の将来のウェイポイントを出力します。これは、このシナリオの衝突までの時間 (TTC) よりも短いですが、最終ウェイポイントが現在の参加者の位置と交差する前に回避操作を開始できるため、問題にはなりません。さらに、このシナリオはかなり寛容になるように設計されているため、TTC が 3 秒未満のプランでも衝突を正常に回避できます。 2つのモデルの主な違いは、UniADが予測軌道に衝突回避最適化の後処理ステップを適用する点です。最適化は、予測占有率と最適化されていない出力軌道に基づくコスト関数を持つ従来のソルバーを用いて実行されます。この最適化は、開ループで評価した場合に衝突率が大幅に減少することを示しており、より興味深い閉ループ設定で調査できるようになりました。より直接的な比較を行うために、VADにも同じ衝突回避最適化を実装します。ただし、VADは将来の占有率を直接予測できないため、予測された将来のオブジェクトをラスタライズし、これを将来の占有率として使用します。このアプローチでは、すべての将来のパターンが等しい確率を持つものとして扱われるため、占有率を過大評価する可能性があることに注意してください。 比較のために、UniAD/VADの知覚出力に基づく単純なベースラインアプローチを実装しました。計画ロジックは単純な等速モデルであり、車両前方の通路に物体が観測されない限り、ブレーキ操作を実行します。通路は横方向に±2メートル、縦方向に0~2VGOMと定義されており、TTC < 2秒で前方に物体がある場合にブレーキをかけることを意味します。 実験結果図4に示すように、各シーンタイプにおける前方カメラのレンダリング画像と、計画された軌道のオーバーレイ投影を用いることで、定量分析を強化しています。図4aは回避行動の成功例を示しており、オートバイのような複雑な物体を表現できることを示しています。しかし、後処理を行わないと、図4bに示すように、安全上重要な事象を見落としてしまう可能性があります。 制限以下の制限が認められました。第1に、ニューラル レンダラーはシーンとコンテキストに制限があります。たとえば、雨が降っていないと正確にレンダリングできません。さらに、車両の軌道に大きな偏差があったり、物体が近すぎると、視覚的なアーティファクトが発生します (図 4 を参照)。第2に、レイテンシー、摩擦、サスペンションなどをモデル化していない単純化された車両モデルを使用しました。さらに、路面の凹凸、穴、砂利などの路面状態も考慮していません。第3に、すべての車両タイプが密結合されているにもかかわらず、単一のコントローラーを使用しました。評価プロトコルでは、制御信号を直接出力する AD モデルの提出が可能です。第4に、ニューラル レンダラーは歩行者などの変形可能な物体を処理できません。ニューラル レンダリングのさらなる進歩によってこの制限がなくなり、脆弱な道路利用者に焦点を当てた新しい一連のセーフティ クリティカルなシナリオが可能になることを期待しています。第5に、ターゲット アクターは、車両に動的に反応することなく、事前に決定された軌道をたどります。これは EuroNCAP の設定に準拠していますが、複数のアクターが関与する将来のシナリオでは、反応的な行動が必要になると考えています。 結論は要約すると、私たちのシミュレーション環境は、実世界のセンサーデータとユーロNCAPに着想を得た安全プロトコルを活用し、自動運転モデルの安全性を評価するための新たなアプローチを提供します。静的、正面衝突、側面衝突のシナリオを含むNeuroNCAPフレームワークを通じて、現在のSotAプランナーの重大な欠陥を明らかにしました。これらの知見は、エンドツーエンドのプランナーの安全性向上の緊急性を強調するだけでなく、将来の研究への有望な道筋も示しています。評価キットをより広範な研究コミュニティに提供することで、より安全な自動運転を推進することを目指しています。今後は、より幅広いシナリオに対応し、より洗練された車両モデルを統合し、高度なニューラルレンダリング技術を採用したキットを開発し、安全性評価の新たなベンチマークを設定したいと考えています。 |