in

AI プロジェクトが行き詰まる理由は?

文/Jessica Chien, FLOW AIデータ処理事業部担当者

2020年、突如コロナウイルスの出現により各業界に激震が走ると同時にAI導入を急激に加速させました。AIの運用が企業にとって新しい日常の一部になる日は、すぐそこまで来ています。

FLOW AIはAI発展に全力を尽くすという信念に従い、この変化に合わせた新しいコラムを始めました。機械学習(Machine Learning)、AI Ops(Artificial Intelligence for IT Operations)に主眼を置き、各業界の専門家たちがAIモデルの運営や最適化、データ処理などに対してどのように取り組んでいるかについて解説していく実践的な記事をお送りしたいと思います。

【要約】AIプロジェクトを滞りなく進める3つのコツ:
1. 学習バイアスを避けるためのデータソース多様化
2. アノテーションする前に、まずは客観的なルールを確立しよう
3. AIを組織の共通言語にすることで成功率が高くなる

世界のAI発展を見てみると、有名なグローバル企業がAIプロジェクトでつまずく例は珍しくありません。

Google社のタイでのスマート医療導入の試みは失敗に終わり、逆に全体の医療過程を遅らせました;米国デューク大学のPULSEアルゴリズムが誤ってオバマ前大統領の顔画像を白人にしてしまった件も、人種差別をめぐる論争を引き起こしました。

ソフトバンクの孫正義社長は営業マンをAIロボットに置き換えようとしたが、ロボットでは現実の複雑すぎる環境に対応できず、プロジェクト担当者からも「機械学習を甘く見すぎた」と失敗を認めざるを得なかったといいます。。

AIプロジェクトがなかなか軌道に乗らない、その問題の根底にあるものは? 

FLOW AIは日本と台湾で200件以上のAIプロジェクトに協力してきた実績があり、各業界と分野で得た経験から、AI導入が上手く行かない理由を4つにまとめました。

1. トレーニングに運用現場のデータが使用されていない

AIを導入し始めたばかりの企業でも、もしくは既にAIプロジェクトの実績がありモデルの再トレーニングのために弊社に依頼する企業でも、データの品質はいいのに、AIモデルの効果がイマイチという問題に頭を抱えた経験があります。

それは何故かと言うと、「運用現場」のデータをトレーニングに取り入れていないことに起因します。

最近では、無料のオープンデータセットや商用画像素材を入手するのは簡単なため、企業は優先的にこれらのフリーリソースを使う傾向があります。しかし、いざ現場に導入してみると上手く機能せず、実際の運用シーンに適さないため、また一からトレーニングする羽目になってしまいます。

そのため弊社としては、プロジェクトを始める前にまず社内のデータパイプラインを構築することをお勧めします。データ収集の際は、オープンデータのみに頼らず、運用シーンに合ったデータも取り入れ、データの種類やカメラアングルなどの多様性も考慮することで、モデルの学習ミスを事前に防ぐことができます。

2. アノテーションルールの客観性が足りない

企業側のエンジニアとアノテーションルールについて相談すると、例えば顔認識AI用のデータの場合「頭部が小さすぎる場合はスルーして構わない」みたいな曖昧な答えが返ってくることが多いです。

人間なら問題なく理解できそうなルールですが、機械学習にとっては大きな課題になります。頭部の大きさというのは具体的にどのくらいのピクセルサイズになるのか?オブジェクトが背景の色と混ざったりぼやけてたりする場合は対象に入るのか?このように、機械学習に必要なのは「絶対的客観性」を持つルールであり、もし客観性に欠けていたらAIモデルは人間の「主観的認定」によりバイアスが発生し、担当者が変わると結果が全く違うものになってしまった事例もよく見かけます。

FLOW AIの経験上、アノテーションルールの策定はコミュニケーションを繰り返すことで、目標を明確にすることが一番です。客観的なルールをしっかり定義し、まとめることができれば、モデルの学習プロセスの加速にも繋がります。

画像の色彩やぼかしについて明確に定義するため、我々は国際照明委員会( International Commission on Illumination)が制定したDelta E基準と画像品質アルゴリズムBRISQUEを採用し、双方の認識が一致していることを確認します。

国際基準によれば、人間の目で認識できる色差値は最小でΔE = 2以上は必要で、測定結果がそれを下回ると画像の色差が小さすぎて区別できないということになるため、アノテーション対象から排除していいと判断できます。

また、「ぼやけすぎた画像は除外して欲しい」という要望の場合でもBRISQUE基準に参照してそれぞれ違うファジー指数の画像を出力し、お客様にとっての「ぼやける」は具体的70%なのか、80%なのかを確認してもらいます。

画像出典:Unsplash

3. 段階的にトレーニングを進めていない

例えば姿勢推定AIの場合、人体の主要関節にキーポイントを設定しモデルに認識させ、最初の7つのキーポイントから徐々に25個、40個へと増やしていくのが定石通りですが、一気に40個のキーポイントからスタートしてそのまま機械学習に使いたいという要望のお客様もいらっしゃいます。

ところが、機械学習は子供に教えるのと非常に似ていて、焦って情報を詰め込みすぎるとかえって悪影響を与えてしまい、AIモデルは何を学習すればいいかわからなくなります。また、過去に最初から難易度の高いセグメンテーション法を使ってAIに人間の行動を学習させたいという要望のお客様もいました。しかし人間の行動というのは何百通りもあって、セグメンテーション法の変動性も高いため、正しく学習させるのは至難の業です。

このような原因でAI開発に頓挫したお客様が弊社に協力を求めると、ほとんどの場合は考えを改めて細かいところから段階的にモデルを改善して行くようになります。

4. 経営陣の理解と支持が足りない

AIブームのおかげで多くの企業は人工知能に注目し始めましたが、AIの導入を成功させるには上記の3つのアドバイスに加えて、経営陣のAIに対する理解と支持も重要な役割を担っています。

台湾企業のデジタル化推進者は、社内でキャリアの長いCTOや管理職の方が担当することが多く、彼らにとってAIという分野は全く新しい概念なため深く理解しておらず、モデルトレーニングやテストの経験も不足しています。AIの導入が行き詰まった時は、上記の4つのアドバイスを参考して原因を探ってみればきっと助けになるでしょう。 

関連記事
・AIモデルの育成にどれだけのデータが必要?
・データ特徴とアルゴリズムの選び方


スカイディスク 日本FLOWの協業でAIに不可欠なアノテーション ーAI外観検査をより手頃なコストで提供へー

AI モデルが育つには、どのくらいのデータが必要?