若水國際 AI 數據服務事業部策略顧問-簡季婕
in

データから学ぶ3つのこと AIをより精確的にビジネスに応用しよう!

文/ Jessica Chien、FLOW AIデータ処理事業部責任者

近年ではデータの重要性についてもう知れ渡っていると思いますが、その運用には戦略を立てる必要があります。そうでないと、いろいろと「面白おかしい」状況になりかねます。

代表的な例を一つ挙げますと、かのGoogle社はかつて3年もの時間をかけて画像認識ソフトの開発に注力しましたが、なんと黒人をゴリラだと誤認識して差別問題にまで発展しました。AI産業の最先端にいるGoogleでさえ、データ面のミスをしてしまうとわかる良い例です。彼らが使用したデータベースでは白人の顔写真は多い反面、黒人のほうは少なく、これが原因となり誤認識を引き起こしました。Google社は後に解決策として「ゴリラ」のタグを削除することで、少なくとも黒人を人間として認識するようにしました。

(圖片來源:若水 Flow)

このケースから、Google社がこんなミスを犯してしまったのはデータに対しての思考・判断に欠陥があったと推測できます。データを使ってAIを開発したい企業なら、おそらくGoogleと同じく2つの課題に直面することになるでしょう:

  1. データの量が過多・過少の場合はどうすればいい?
  2. 現時点のデータの質はモデルに使用できるかどうかの判断基準は?

私はFLOWでデータ戦略のコンサルティングとサービス提供を担当していますので、様々な業界でのデータ運用の実態を直で見てきて感じたのは、データは「生き物」ということです。異なるシーン、つまり時間や空間によってそれぞれ違う定義、脈絡と結果を生み出すからです。それ故に、行動に移す前は「データ戦略」についてしっかり策定する必要があって、段階を踏んで進んでいくことをおすすめします。つまり、①本質を見抜く、②シーンを明確に、③実現に移すという3つの段階です。

画像/ Flow制作

企業が目的を持ってAI開発に挑戦する時に、どんなデータが必要なのかをまず考えなければなりません。反射的に「多ければ多いほどいいに決まってる!」と思ってしまう方もいると思いますが、実はそうでもありません。例えば自動運転車の場合、日常的な運転シーンをラーニングさせるより、安全運転のためにマシンに「事故」の場面を学ばせたほうがずっと重要です。だが同時に、人為的または自然災害による道路障害物や、交通事故などの画像データを手に入るのは容易ではありません。

自動運転車の例からわかるように、データを扱う上で最優先なのは本質を見抜くことです。データを量だけでなく、運用面の視点からその本質を捉え、そこから派生する多元性と複雑性についても考えなければなりません。

画像/ Flow制作

自動運転車を安全運転できるようにするために、データ収集の際、一般道路はもちろんのこと、田舎道や高速道路、様々な時間帯や天気などの要素も考慮に入れる必要があります。特に近年では異常気象が増え続けており、車にゲリラ豪雨の中の走り方を覚えさせる必要がありますが、豪雨で視界が悪い中、ぼんやりとした路上のオブジェクトにラベルをつけるのは非常に困難な作業です。

データを手に入れたら、次にするべきは需要にあった部分のみになるまでフィルタリングをすることです。要件定義を満たしていないものを取り除くのが一般的ですが、この手のデータは本当に「使えない」ものなのでしょうか?フラグメント・マネージメントの観点からすると、そうとも言い切れません。

ここでもう一つ例を挙げます。女性に大人気なコスメ製品SK-IIですが、これに対し小売業者やEC業者はどうすればAIを効率よく学習させ、製品を正しく識別できるようにするのでしょうか?この場合は、トレーニングを3つの段階に分けて行うことで、機械学習をより効果的なものにできます。

一段階目、無制限にデータを集めます。

二段階目、SK-IIの製品が含まれているシーンを洗い出します。例えば使用者も登場しているシーンだったり、箱に収まっている状態の製品だったり、こういった「ノイズあり」のデータはここに分類されます。

三段階目、製品の特徴を絞り込んでモデルに学習させます。こういった手順を通してデータを運用することで、後になって問題が発生しても原因を特定するのが容易になります。

もちろん三段階目からスタートするという選択肢ももあります。これは識別難易度の高いデータを少しずつAIモデルに与え、その性能を徐々に上げていく手法です。きちんとしたデータ戦略というのはまずユーザーのことから考え、モデルの構築はその次。段階を踏んでしっかりデータの特徴や定義、機械学習の難易度を把握し、大本となる「ただのデータ」を「良質なデータ」に変換していきます。

画像/ Flow制作

正しく定義された良質なデータこそが、我々が求める機械学習に利用できる「高品質な教師データ」になります。しかしながら、AIプロジェクトの実現は往々にしてこの「定義」のところで躓きます。

応用領域の広いケースなら内部投票で決められますが、自動運転や医療などの専門性の高い分野だとそれ相応の産業知識を持つ専門家に相談しないと、データに対する理解と安定性を保証できません。

近年、世界各地に橋の崩落事故が頻発しています。弊社と繋がりを持つ日本のお客様の一人は、事前に橋梁の安全性をチェックできるAIアプリケーションを開発しました。彼の知る限りでは、崩落の原因は主に鉄サビによる劣化にあるため、エンジニアとパートスタッフに鉄サビのアノテーションをしてもらうことにしました。

しかしそこで問題が。エンジニアたちはAIモデルの構築だけでも手一杯で、アノテーションまでやらされると進捗が遅れてしまう恐れがあります。このお客様は後に弊社に助けを求め、我々はまずお客様のニーズをしっかり把握し、現在開発中のものに必要な「良質なデータ」の定義を明確にしました。

画像/ Flow制作

たかが鉄サビ、そんなに難しくはないでしょう?

と我々も最初はそう思いましたが、建築の専門家に相談して初めてサビの物理特性を理解し、影やシミ、色濃いコケなどを鉄サビだと誤認しないよう注意を払い、モデルに間違ったデータを学習させないように尽力しました。また、鉄サビの形状が不規則なため、最初は「ポイント・ツー・ポイント」で描画するやり方で作業しましたが効果がイマイチで、後に方法を「領域分割」に切り替えてラベリングを行うことで機械学習の効率を格段に向上させました。

(圖片來源:若水 Flow)

データ処理を行う際は、「誰が」「どのように」の判断が重要になります。正しく役割分担ができれば、より良い成果を得られます。後日、この日本のお客様からプロジェクト期間中に弊社からの多くのフィードバックに対する感謝の言葉をいただきました。AIモデルの構築プロセスはまさに一つのループで、素早いフィードバックはエンジニアがデータやモデルの欠陥を見つける手助けになります。

AI導入に向けて、「人員、時間や予算などのリソースをどのように配分すべきか」は、経営者にとって最大の頭痛の種になっています。

「データ作成代行サービス」こそが、この難問への解答だと我々は考えています。このやり方には大きな利点が2つあります。それが、①精確で正しくラベリングされたデータの入手と、②速やかに大量のデータを得られることで、エンジニアは予測可能なモデルをトレーニングすることができ、最終的にAIの運用をよりスマートなものにできます。


FLOW AI代表取締役陳潔如:「AI起業して得た3つの学び」

限られた資源でデータ処理!デマ撃退の専門家Cofactsとその手法