in

【データ処理の戦略的思考】 スマート交通について知っておきたい3つのデータ特徴

文/ Jessica Chien, FLOW AIデータ処理事業部担当者

国連などの研究※1によると、今後の30年間で世界人口のうち7割は都市部に移住し、運転手は年間で一人あたり約70時間の渋滞損失が発生すると予想されています。都市化に伴う交通問題を如何に対策するか、これは各国が経済改革を推進するに当って直面する重要課題となっています。

近年、世界各国はAIの導入を試み始めました。スマート交通からスマートシティへ、渋滞による時間と金銭の損失を少しずつ解消しようと動いています。将来的には車両の監視に留まらず、更に交通状況の早期警報、交通流のリアルタイム調整、道路工事の事前計画や電気自動車用充電レーンの建設など、完全なる運用体制の構築も視野に入れています。

台湾は、2019年9月に国家発展委員会の指導のもと、中華電信(台湾最大の電気通信事業者)やウィストロン社などの業者に委託し、国内の自動運転車メーカーからはじめ、これから来る交通スマート化に備えて様々な道路交通情報を集めたデータベースを作成する計画が進めています。

データ処理及び応用の面から見るスマート交通の範囲は広いです。運転手の行動検知からナンバープレートの識別、橋の錆の検出、交通状況の監視や分析、バスとタクシーのシフト分析など色んな項目が含まれています。必要なのは成熟したIoT、5G、AIネットワークの他に、「スモールスタート」で段階的にブレイクスルーをして、統合していく必要があります。

スマート交通のデータ処理は大仕事である

FLOWが協力してきた100件近くのAIプロジェクトの中でも、「交通のスマート化」に関する案件が最も数を占める上、必要とされるデータの複雑性も最上級なものです。

元マイクロソフトのグローバル上級副社長のハリー・シャム氏は去年の10月に台湾大学で講演を行いました。最後の質疑応答で、自動運転車の将来の展望について聞く学生さんがいました。ハリーは直接に回答をせず、とあるマサチューセッツ工科大学の教授の言葉を借りて、「キャンパスの中でさえ交通ルールを守られないというのに、そんなデータを学習する意味あるのか?」と答えました。短い言葉ですが、スマート交通構築の困難さを表しています。

例えば、ハードウェアとソフトウェアをどう統合するのかはまず一つの問題です。それから、チップはエッジ処理と集中処理のどちらにすべきか?ソリューションに使用するカメラ映像は道端の防犯カメラ、ドローンやドライビングレコーダーのどれなのかなども考慮しなければなりません。(これに関しては、またの機会でお話しさせていただければと思います。)

AI導入の仕方がわからない企業も少なくありません。我々は、これは「データ形態」への不十分な理解に起因すると考えています。この場合は、異業種のケースについて勉強し、自社データの強みへの理解を深めることをお勧めします。

例として、スマート交通において重要となるデータの特徴を3つ挙げました。

1. マルチシチュエーション:例えば「定義された交通流」を解析する際は、まず交差点の流出・流入速度を改善するためのキーファクターを洗い出した上で、さらに細かい項目に分ける必要があります。

2. 膨大なデータ量:特に「交差点の交通流監視」が最も多いです。プロジェクトの複雑さにもよりますが、ラベリング部分だけ取り上げてもバウンディングボックスの数が100万超え、なんてこともあり得ます。

3. 二種類のデータ:事前のデータ収集段階では、画像データは主に標準的な「通常視角」と遠くを見る「見渡し広角」の2つのタイプがあります。


アノテーションの肝要:精確、連続的、変化の把握

安全第一の原則を基に、AIは交差点を通過する全ての車両を認識・追跡できる性能が求められています。それ故、実際のアノテーション作業では細心の注意を払う必要があります。例えばラベル付けはオブジェクトのいずれの辺が10ピクセルを超える瞬間に行われ、同時に周囲のノイズが入らないように枠線はオブジェクトの輪郭線をなぞって行くように揃わなければなりません。

特に前述のような第2タイプの「広角画像」は魚眼効果の影響で乗り物などのオブジェクトの大きさや形状にばらつきが生じたり、画像の端に近づくほど輪郭が歪みやすくなったりします。それにそれぞれの画像データに規則性はないので、アノテーションの品質と精度を向上させるためにそれ相応の対策を取ることが必要となります。

道路上に出てきそうなオブジェクトを、全部AIが認識できるようにするだけでも対象物は50種類以上あります。バイクの場合だと、更にバイク・ライダー・後部乗客の3つのカテゴリに分けられます。また天候などによって交通状況も変化しますので、これらの条件も全て考慮しなければなりません。

では弊社は、スマート交通関連のデータ処理にどのような工夫を施したのか? 

ソリューション①:キックオフ研修&自動車図鑑

ラベリングの場合、対象物の種類(ラベルカテゴリ)が多いほど、求められる背景知識も全面的なものになっていきます。自動車のラベリングは大量なデータが必須で、プロジェクトのスピードアップのためにも複数アノテーターでの作業と、成品の一貫性を維持するために事前にキックオフ研修を行うことを強くお勧めします。

弊社は道路に現れうる様々な乗り物に対して、大型トラックから軽トラ、大型乗用車などの見分け方をアノテーターが参照・学習できるように自動車図鑑を作成しました。

プロジェクトの初期段階では、大型乗用車のラベルミスが他の車種よりも高い状況がありましたが、後にそれは大型乗用車のバックミラーが特に突出していて、それが見落とされやすいからと判明しました。原因を判明次第すぐにアノテーターと連絡を取り、図鑑にこのケースを追加しました。


ソリューション②:プラットフォームのUI設計によるプロセス最適化流程

例えばルールが画面中の「50ピクセル以上の車両」にだけラベルを付けると仮定します。一般の外部プラットフォームでラベリングを行う際、それぞれの画像のズーム倍率にズレがあるため、目で直感的に車両の長さと幅が50ピクセルを超えているかどうかを判断できず、ボックスの右下に表示される画素数に注目するしかありませんので、神経がすり減ると同時にミスも起こりやすくなります。

弊社は継続的にアノテーターからフィードバックを集めることにより、自社製プラットフォーム「PIGmax」のUIデザインを改良し続けています。ボックスを引く時、縦横のどちらかが50ピクセル以上であれば枠線は自動的に赤から緑に変わり、引く判断ができます。これによりミス防止の他に、アノテーターの確認時間も短縮されたので、ラベリング効率の向上に繋がります。


ソリューション③:動画切り出しツールで前の画像からラベルをコピー

スマート交通のシチュエーションでは、交差点監視用のAIで移動車両の追跡を可能にし、そして精度を確保するために違うボックスにある同一車両が同じIDタグを保有しているか否かをフレーム・バイ・フレームで確認する必要があります。

機械学習で交通流を解析する際、動画を切り取って画像ファイルにしないとラベリングはできません。同じ動画でも、連続した2つの画像A-1とA-2のラベル対象の距離が僅差しかない場合もあります。

一般の外部プラットフォームでラベリングをする際、赤信号でA-1とA-2の車両がほぼ同じ位置に停止していても、A-1にラベルを付けた後A-2に移行すればまた最初からボックスを引かなければならなくて時間と手間がかかります。

「PIGmax」プラットフォームでは、弊社は「前の画像からボックスをコピーする」
機能を実装しました。アノテーターが画像A-2の作業をする時は直接A-1から全てのボックスとラベルをA-2に持っていけるようになり、A-2で微調整をして枠線に揃うだけで終わります。これにより作業時間が大幅に短縮された上に一貫性も確保できるようになります。


ソリューション④:対話型機械学習を応用したスマートツールで時短かつ高品質のアノテーションを実現

車両のボックス量が膨大なため、弊社は対話型機械学習(Interactive Machine Learning)を応用したスマートツールシステムを開発し、平均作業時間を半分に短縮しました。

事前ラベリング機能(pre-label)ができる前のアノテーターは、ラベルを付ける前にまずオブジェクトの端を見つけ枠を引き、微調整して四方に合わせなければなりませんでした。今では大体の範囲をマークすれば、枠線は自動的にオブジェクトの端にフィットし、アノテーターは仕上げに微調整だけしてラベルを付ければ完成です。

スマート交通の開発は容易ではありませんが、データの特徴を事前に把握できれば、競合他社より早くAIを実現することも可能になるでしょう。

注1:《国連2018年世界人口予測》、《Juniper Research》

画像出典:FLOW AIデータ処理チーム、 Photo by Andy WangVincent Chan and Scheier .hr on Unsplash


AIプロジェクトの管理はどんな感じ?PDCA、EAPを通して障害者に活躍の場を提供するFLOW AI

【欠陥検査】プリント基板製造へのAI導入の仕方とは?AOIの誤検出率を抑える3つのコツ