自動運転データに潜む異常データ
本記事では、Weights & Biases を用いて、探索的データ分析を数分以内で手軽に共有できる方法を紹介します。これは記事の翻訳版です。誤訳の可能性があれば、コメント欄でお知らせください。
Created on August 26|Last edited on August 26
Comment
自動運転の分野は急速に進化しており、ベンチマークデータセットや、それらを用いて意思決定インテリジェンスを構築する手法は常に更新・改善されています。とはいえ、機械学習の初期の飛躍を可能にした基盤的なデータセットを、あらためて見直す価値がある場面もあります。
その一例が Berkeley Deep Drive 100KBDD100K)データセットこのデータセットは、その名のとおり10万件の学習データ(具体的には短い動画)から成り、完全自動運転における予測タスクを念頭に設計されています。BDD100Kには、静止画像で構成されたより小規模なサブデータセットも複数含まれており、画像または動画を用いることで、レーン検出、物体検出とローカライゼーション、セマンティックセグメンテーションといった特定のタスクに対するモデルを学習できます。
本レポートでは、BDD100Kのような実世界(非シミュレーション)データセットがとりわけ有用である理由と、コーナーケースを発見して活用し、自動運転モデルの性能を向上させる方法を解説します。
まずは、本日扱うデータについて少し説明しましょう。
データの来歴:なぜ BDD100K のようなデータセットを使うのか?
これは、単一のスマートフォンのカメラ構成といった低コストの計測機器を活用し、モノ/ステレオカメラ、サーマルイメージング、ナイトビジョン、そして各種の測距系イメージング(radar、LiDAR、sonar)といった高価なマルチモーダルセンサーと対比されます。これらセンサーの出力を融合し、走行環境のマルチモーダルな知覚に基づいて機械学習モデルを学習させることで、自動運転車にとって難易度の高い場面を含む幅広い走行シナリオに対して、モデルははるかに堅牢になります。例えば、コントラストの乏しいシーン(暗すぎる/明るすぎる)、さまざまな降水(霧、雪、雨)などです。
可視光カメラのみに依存することは、人間が世界を知覚するやり方に近いと考えられます。これは、広い視野、センチメートル精度、長距離での物体検出・認識、低コントラスト環境(明るすぎる/暗すぎる)でも「見える」能力を備えたLiDARのようなセンサーとは対照的です。結局のところ、人間の脳には暗闇で見る能力も、x平面で180°の景色を同時に捉える能力もなく、道路上のボールが高さ12 cmか14 cmかを判別することもできません。
したがって、人間の目が情報を取り込むのに近い形で、純粋なモノカメラ構成(今回の作成に用いられたものと同様)を使って走行環境の視覚認識をモデル化しようとしている場合には、 BDD100K データセットは、おすすめです。

日照に恵まれ、歩行者や自動車以外の交通がほとんど想定外となるような、ほぼ最適条件下で収集された超高精度のAVデータセットは枚挙にいとまがありませんが、そうしたデータセットは自動運転車の自己運転モデルにほとんど価値を付加しません。何十億キロもの「簡単な」データで学習しても、これまで一度も遭遇していない「難しい」状況に直面したときには、モデルは不適切な挙動を示しがちです。言い換えれば、モデルが厄介なエッジケースを見たことがなければ、実世界でそれに遭遇した際にうまく対処できることは期待できません。
そこで、 BDD100K データセット:携帯電話のカメラを用いて収集され、低コントラストや悪天候など必ずしも最適でない環境条件のもと、予測しにくい歩行者や車両の交通が多い高密度な都市部で取得されたものです。 BDD100K このデータセットは、自動運転車メーカーとそのデータ��供者が直面するニーズ、すなわち自動運転モデルの学習に用いる「難易度の高い」データの需要を満たすことを目的としています。結局のところ、問題は「もし」ではなく、いつかという点にあります。 もししかしいつか。
そして自動運転車がこうした稀で逆境的な状況に遭遇したときには?すでに同程度に難しい事例を見て学習していることが望まれます。その時点でモデルは、 either優雅かつ安全に失敗し—短時間だけ人間のドライバーにハンドル操作を引き継ぐよう促す——あるいは、モデルが自律的に続行するか、となるでしょう。成功する車両の自動制御を維持すること。
Nexarの共同創業者兼CTOであるBruno Fernandez-Ruizは、次のように述べています。 BDD100K データセット、データ収集手法、そして訓練データが「きれいすぎる」ことによって直面するAVモデル開発者の課題について。
ここで言うコーナーケースやエッジ条件とは、道路上で起こる非常に稀な出来事や、標準的ではない状況を指します。たとえば、通常では考えにくい極端な天候から、倒れた電線まで、さまざまな事象が含まれます。対照的に、業界の他社が採用する解法は高忠実度のデータ収集に焦点を当てており、その結果としてアクセス性が低く、広く展開されにくく、Nexarの10分の1規模でばらつきの少ない限定的なデータセットから観測・学習するにとどまっています。こうした事情により、それらの企業はアルゴリズムの開発とテストにシミュレーションを使わざるを得ません。一方で、NexarやBDD100Kは実際の現場データを用いて取り組むことができます。
プログラムによる異常データの理解
この領域で異常データがとりわけ有用である理由を踏まえたうえで、その見つけ方と活用方法を見ていきましょう。ここでは、次の研究者による成果を利用します。 ETHチューリッヒ—具体的には、複雑な走行シーンにおける異常領域をピクセル単位で予測できるモデルを用い、その結果をデータ探索用ツールである下の Weights & Biases Tables に表示します。
Tablesは、画像やテキスト、動画を記録するだけにとどまりません。列形式で表示したいあらゆる種類のデータを、基本的に記録できます。以下には、予測されたセマンティックセグメンテーションや知覚差分といった例を示しています。Tablesはインタラクティブなので、下の画像をクリックするだけで詳細を確認できます。
ほんの数行のコードで、モデルが画像内の異常領域を検出し得る例を抽出できます。上で示したように、いくつかの画像ではヒートマップ風の可視化で強調しています。 BDD100K 理想的とは言えない天候下での例です。さらに、学習データの中から再アノテーションが必要そうな例、モデルに不正確な表現を学習させてしまう恐れのある例を強調表示することもできます。実際、そのような例を以下に整理しました。 走行可能領域 マスク画像。物体ローカライゼーションのアルゴリズムと相性のよい、動的バウンディングボックス機能を手早く簡単に使う方法については、こちらのチュートリアルをご覧ください。
実務者のための異常データ観察事項
…の異常画像を調査している間に BDD データセットを、いくつかの可視化を用いて 類似度ツール Weights & Biases Tablesと併せて検証した結果、このタスク多様型データセットを活用したいAV、ロボット経路探索、あるいは自動運転支援の実務者にとって関連し得る、いくつかのデータ収集上の課題が見つかりました。
- データ作成者は、このデータセットがニューヨーク市、バークレー、サンフランシスコ、ベイエリアで収集されたと述べていますが、実際には他国の都市で撮影された例も含まれていることに驚くかもしれません。ヒントを出すと、このデータセットに写っているヤシの木がすべてカリフォルニアにあるわけではありません。
- グラウンドトゥルースは見かけどおりとは限りません。もしこのデータを学習用データやグラウンドトゥルースとして用い、注釈付きの走行可能領域や道路標識を鵜呑みにすると、期待外れになるかもしれません。最初の箇条書きの内容を踏まえると、ニューヨーク市やベイエリア周辺で見慣れた道路標識も、別のヤシの木が多い地域ではまったく異なる見え方をする可能性があります。
- クラス不均衡に注意!そう、私たちが持っているのは数百件の例だけです。 foggy 、 snowy、あるいはそれ以外の荒天でも、いくつか試してみる価値があるかもしれません メタラーニング あるいは、誤分類データを特定するための他の手法。さらに、…だけでなく、 weather ラベリングに誤りが多いものの、 time_of_day データも改めて見直す価値があります。センサーフュージョンを用いているなら、こうした誤ったメタデータ属性の多くは影響しないでしょう。しかし、モノカメラのみを用いた純粋なCVモデルを開発しており、コントラスト最適化のために暗すぎる/明るすぎる画像を前処理したいのであれば、付与されているクラスを念のため再確認しておくのが妥当です。 BDD100K データアノテーター。
BDD100Kデータセットを用いた開催中のコンテスト
Weights & BiasesのTablesやExperiment Trackingなどを活用して、最高性能のモデルを素早く構築・レポート・反復改善しましょう。
Add a comment