in

複雑なデータアノテーションの対処法とは?

文/Jessica Chien, FLOW AIデータ処理事業部担当者

【要約】複雑なAIデータ処理を対応するには:
1. データ処理の定義とルールをはっきりさせる
2. HRC(ヒューマン・ロボット・コラボレーション)で品質と効率の両方を確保
3. 適材適所、正解なワークフローを見つけよう

AI応用の発展につれ、データ精度への要求はどんどん高まり、画像などのデータもますます複雑なものになっています。

AIに関わる産業と応用範囲は何百通りもあり、それぞれにコツが違うので、アノテーターの専門知識による判断が非常に重要な役割を担っています。

しかし、実際に大量のデータを前にするとアノテーターごとに違う認識や考え方を持つため、同じ対象者の年齢と性別を判断するにしても、全員が異なる答えを出してしまうこともないとは言い切れません。その上、作業時間が伸びれば、どんなに熟練したアノテーターでさえも誤判断してしまう可能性はあります。

これらの問題を解決するために、FLOW AIでは4つの方向から着手し、ワークフローの最適化とHRC(ヒューマン・ロボット・コラボレーション)を通してAIプロジェクトを支援し、精確なデータを抽出しています。

(画像出典:Unsplash​)

1.精確なアノテーション:アノテーターの専門技能を磨く

精確なデータ処理は、アノテーターの専門技能と大きく関係しています。FLOW AIでは面接を通過したアノテーターに、アノテーションツールとドメイン知識に関する新人研修を実施し、テスト合格者のみがプロジェクトに参加できるようになっています。

プロジェクト期間中、各アノテーターの産出量や効率、得意・不得意分野などリアルタイムで記録し、そのデータを分析して人員配置の最適化(Right people in the right loop)を図っています。その他にも、再研修制度も設けており、アノテーターの能力が常に基準を満たしていることを確保しています。

2.精確な定義:精度の定義とアノテーションルールはハッキリと

AIモデル導入の重要な一歩は、お客様に「精度」の定義とアノテーションルールをハッキリさせることから始まります。どのくらいの歩留まり率と結果が、お客様のビジネス目標に合致するものなのか?依頼を受ける際、FLOW AIのプロジェクトマネージャーはお客様と共にこれに対して議論し、「エンジニアの言葉」を何百人もいるアノテーターたちが瞬時に理解できる「直感的なルール」に変換し、事前に矛盾点を排除することでモデルの学習効果を引き上げています。

3. 精確な品質管理:スマートツール、人機協働、多様なQCプロセス

AI時代では、テクノロジーは人間に取って代わるためではなく、人間の負担を減らす為のものだと我々は信じています。人間を価値ある場所に配置する為に役立つのが「データ判断」なのです。

FLOW AIは独自のスマートツールを開発し、人機協働の形で人類知能を取り入れ、アノテーターの単純作業の手間を省略することでアノテーターは専門的な判断に集中できるので、効率は大きく改善されます。

同時に、リアルタイムでの生産管理と厳しい品質管理により、チームがいつでもプロジェクトの進捗を把握でき、条件に合わせて異なる検証法を実施することで、データの精度を確保しています。

4. 精確な対応:変化の激しい時代にワークフローの再設計を

AIデータ処理の需要が多様化し複雑になっている昨今、この流れに対しFLOW AIはワークフローの再設計により「多段階アノテーション」「分流アノテーション」と「投票アノテーション」の手法を生み出し、臨機応変に使い分けています。

例えばスマートリテールでは、時には一人の対象者に対してバウンディングボックス作業を行うと同時に十数種類のタグをつけることがあります。しかし色々なカテゴリーのタグを全部覚えて作業するのは、アノテーターにとって大変なことです。この場合、チームは「多段階アノテーション」に移行し、ボックスとタグの作業を二段階に分けることで作業精度を向上させます。

スマート交通関連のプロジェクトでは、処理するオブジェクトが非常に多いため同時に複数のスマートツールを使う場合もあります。このような時には「分流アノテーション」でアノテーターを幾つかのグループに分け、各グループそれぞれ1種類のツールを担当させます。、最後にR&Dエンジニアの力を借り、これらの作業成果を統合してから納品します。

単に手間がかかる複雑なプロジェクトなら、実はまだ簡単な部類です。本当に頭を悩ませるのは、個人の判断が必要なプロジェクトです。なにせ経験や考え方は人それぞれなので、例えば対象者の年齢層、性別、顔の特徴などを判断する場合は客観性に欠けるため精度が落ちてしまいます。

このような場面では「投票アノテーション」の出番です。数人一組でアノテーターをグループに分けし、多数決と議論を用いて判断基準を定め、人間による認知バイアスを最大限抑えます。

常に変化しているAI産業では、データ処理のプロセスと専門性も合わせて成長していく必要があります。次の攻略では、弊社内部で起きた実用的な面白エピソードをいくつかピックアップしてご紹介したいと思います。

「精確なデータ」というものは、一体どんなふうに作られたのでしょうか?
また次回お会いしましょう。

関連記事
データ文化を築き、AIプロジェクトを成功させる
精確なアノテーションはゴールの設定から始まる


データ特徴とアルゴリズムの選び方

データ文化を築き、AIプロジェクトを成功させる