in

精確なアノテーションはゴールの設定から始まる

文/Jessica Chien, FLOW AIデータ処理事業部担当者

【要約】精確なAIデータを得るための3つのポイント:
1. 実際の運用シーンに合わせたデータの用意
2. 「精確」の意味をしっかり定義しよう
3. 人員や時間、リソースの配置は戦略的に

AIを導入する時、最初に直面する課題はデータ処理です。これに関して、特徴にタグを付けるだけだから簡単だと軽く考えてしまう方もいるでしょう。

実際、オブジェクトを枠で囲むことやラベリング作業の操作自体は難しくありませんが、AIモデルが正しくトレーニングできるような「精確な」データを効率よく作成するためには、様々な専門分野のノウハウを蓄積しておくことが非常に重要です。

日本と台湾において、様々な企業のAIデータ処理プロジェクトを200件以上にわたって携わってきたFLOW AIでは、データ収集にデータクレンジング、アノテーションから分析に至るまで、多分野に渡り経験と実績を積み重ねてきました。その中でお客様からいただいたフィードバックから1つ重要なことを学びました。それは、データの精度はAIモデルの出来に直接影響するという事実です。

(画像出典:日本FLOW株式会社)

モデルの学習に影響する2つの要因:データの品質と運用シーン

インプットするデータが精確であればあるほど、モデルから得られる結果も精確なものとなります。我々は台湾で様々な業界のお客様と仕事をしてきましたが、経験上どんな用途のAI運用でも、常に90%以上の歩留まり率を求められます。

そんな中、インダストリー4.0関連の業界、例えばプリント基板製造の品質管理AIではデータの精度に対する要求は非常に高く、95%どころかGround Truth(正確性100%)に近いレベルまで求められます。

“精確なデータはもはやAI開発の先決条件となっている”

モデルの有効性に影響を与えるが見落とされやすいもう一つの要因として、運用シーンがあります。多くの企業はプロジェクト始動時、無料のトレーニング済みモデル(Pre-trained model)やオープンソースのデータで十分だと考えがちですが、AIモデルを導入する現場はそれぞれ需要が違うので、実際の運用シーンに応じて適切なデータを集めてトレーニングする必要があります。

例えばアジアで顔認識AIを開発するとして、フリー素材によくある欧米人の顔写真だけではなく年齢や性別の違うアジア人の写真も用意することで学習ミスを防ぐことができます。オープンソースデータのみに頼ると、のちのち結果を修正するために多大な労力を使ってデータ収集をやり直す羽目になる可能性があります。

(画像出典:日本FLOW株式会社)

「精確なデータ」を定義および用意するには?

データの精度といえば直感的に「精確 = 見えるもの全てにタグを付ける」と思うかもしれませんが、データの精度というものは「どんな用途のAIモデルを構築したいか」によってその定義が変わります。

“モデルの学習と運用効果はアノテーションの仕方に直結する”

キーポイントアノテーションを例にとると、特殊な用途でない限りAIは過度に複雑な動きを識別する必要はないので、主な人体関節に絞って17個ほどのキーポイントを設置すればそれで十分です。しかし、全身の関節に合計20~30個キーポイントをつけてモデルに学習させようと考える企業もあります。それだと逆にデータの特徴が多すぎて、AIは何がポイントなのか分からなくなってしまいます。

そのためFLOW AIでは、データ処理の依頼があった場合「ゴールから逆算して」AIモデルにどんなものを認識させたいのか、どのくらいの効果を期待しているのかをお客様と明確にさせ、双方のデータ精度に対する定義が一致するようにします。

精度の定義を確認した上で、アノテーター全員が一貫した品質のデータを作成できるように保証する必要もあるため、プロジェクトマネージャーは専門知識に基づいてお客様と共にエンジニアたちの主観的な判断基準をまとめ、何百人ものアノテーターに適用する客観的なアノテーションルールに仕上げることで「前処理」は完了したと言えます。

データをモデルに与える前の段階で遭遇するボトルネック

AIデータの3つのポイントでは、元トレンドマイクロ社のベテランITマネージャーであるチャールズ・チャン氏はある重要な概念について話してくださいました。つまり、「AIを使うためにAIを作るな」です。

“その製品や業務に必ずしも機械学習が必要でないなら、データがない限り導入しないほうが賢明でしょう。”

従来のやり方では対応できない問題だからこそ、機械学習とAIに活路を見出そうとします。そのためAIモデルはそれぞれオンリーワンで、データを与える際は用途に合ったトレーニングデータを使わなければ、本当の意味でAIをビジネスに定着させることはできません。

しかし、トレーニングに適した精確なデータを作成するのもまた簡単ではありません。

POC(概念実証)の段階では、スケジュールの問題もあって整合性の高いトレーニングデータを大量かつ迅速に用意することが大事ですが、製品化の段階に入ると識別するシーンはだんだん複雑なものになり(例えば自動運転車の場合、各都道府県の道路を認識する必要がある)、アノテーションの品質への要求も増し、ますます品質管理のハードルが上がります。

ほとんどのAIモデルは多種多様なオブジェクトとシーンを学習すると思いますが、FLOW AIがこれまで関わってきたプロジェクトの中でも最も困難だったのは「人体の動き」を対象としたアノテーションです。人の動きは千差万別で、中には「人間に見えない動き」もあります。そのため、複数のアノテーターが作業に参加していると客観的なデータを得ることが難しくなり、品質管理の難易度が上がるとそれに伴いコストも増大していきます。

このような状況の中で、FLOW AIはいかに人員を効果的に配置しデータの質を確保するのでしょうか?

精確なリソース配置は精確なデータに繋がる

FLOW AIは台湾各地から集まってきた200人近いのアノテーターを擁しており、プロジェクト期間は全員テレワーク方式で共同作業を行います。この大規模なアノテーションチームを管理するにあたって、データの精度と生産性を維持する秘訣の一つは「Right people in the right loop」――つまり適材適所の人員配置を行う仕組みにあります。

FLOW AIのアノテーターは面接を通過した後、更に各種ツールの研修、プロジェクト現場の模擬訓練や能力検定など厳しい教育訓練を受け、全てのアノテーターが高品質なデータを作成する能力を身につけるよう徹底しています。

プロジェクト期間でもFLOW AIは常に各アノテーターのパフォーマンスを記録し、それぞれのデータベースを作成します。これにより過去にどんな種類のプロジェクトで優れた成績を残したか、クオリティ面とスピード面はどんな感じだったかがひと目でわかるため、新しい仕事に取り掛かる際マネージャーは素早く人材を正しいポジションに配置することによって、アノテーターとお客様のWIN-WINな関係を実現します。

関連記事
データ文化を築き、AIプロジェクトを成功させる
複雑なデータアノテーションの対処法とは?


データ文化を築き、AIプロジェクトを成功させる