in

アノテーションがお手軽に!適切なアウトソーシングで2割のコスト減

文/ Jessica Chien, Flow AI データ処理事業部担当者

【前書き】
アノテーションは多くの企業がAI事業を始める際に直面する問題の一つです。自社でやるには人手が足りないし、品質管理面も難しい。

そんな時実績のある業者に委託すれば学習データの品質と量、両方を確保できるほか、最大2割のコスト削減も可能となります。

創業から2年、FLOWのAIデータ処理部門は様々なお客様にサービスをご提供してきました。大手企業からベンダー、公的機関からメーカーまで、多くのお客様は口を揃えてこう言います:「AIデータ処理は面倒くさい」、「アノテーションってこんなにも簡単だったとは」と。

お客様にとって、FLOWに出会うまでデータアノテーションが一番の悩みのタネだったようです。今これを読んでいるあなたもまた、「AIの導入に向けて部署間の協調だけでも手一杯だというのに、アノテーション用の人員なんてとても用意できない」という状況に悩まされているのかもしれません。


エンジニアの無駄使い

プロジェクト始動したての頃は、人力確保が間に合わずラベリング作業をエンジニアに回すところもありますが、それだとエンジニアは一ヶ月もしないうちに転職を検討しだす恐れがあります。

ただでさえモデル開発で忙しい中、ラベリングに割く労力なんてどこにありましょうか。それに多様のスキルの身につけているエンジニアが、こんな仕事に甘んじるとも考えにくい。次第に重役すら難色を示すことになるでしょう。なんだってエンジニアの給料は高いのですから、やらせるには勿体ないのである。


クラウドソーシングは本当に安上がりなのか?

海外では Amazon Mturk などのクラウドソーシングサイトに頼る企業もあります。この手のサイトからのアノテーターは、色んな国からの主婦と学生のアルバイトがメインとなります。自社スタッフとの認識の違い、そして品質管理が行き届かない故にクオリティにズレが生じます。

その他、セキュリティも一つの懸念材料です。弊社が協力した顧客の中でもこういったサイトを利用していた方がいらっしゃいますが、結局慣れるまで時間かかるし、アノテーションツールも自前で用意しなければならないので撤退しました。台湾では、この手段は基本的に大手企業の選択肢に入りません。

そしたらご自分でプラットフォームを作ろうと考える方もいらっしゃるのかもしれません。しかしコストパフォマンスの面から見ると、これは決して割にあったやり方ではありません。

アノテーションの標的がずっと同じのならともかく、一からプラットフォームを構築するとなると、アノテーションツールの開発も引き続き進まなければならないし、後のメンテナンス及び最適化作業もあります。どれも人員と時間を割ける必要があることに変わりません。


アルバイトに任せる?逆に高くつくことに

初期段階に、アルバイト数人にラベリング業務を任せるのは確かにいい方法かもしれません。あるスタートアップ企業のお客様も、最初はインハウスでアルバイトを雇っていましたが、弊社に委託しはじめてから半年でアルバイトに任せるのを辞めました。それは何故でしょうか? 

その企業の副社長はこう語りました。

「ラベリングは単純作業なので、アルバイトはすぐに休みが欲しいだの辞めるだの言い出す」、

「アルバイトを使う場合、会社は管理のために別途管理者を置く必要がある。プロジェクトマネージャーとエンジニアは作業成果の確認に大量の時間を取られるほか、作業エリアも嵩張る。人件費で見るとまるで割に合わない」、

「新商品の開発段階や急に案件が来た時は、どうもサポートしてくれる経験者を確保するの難しい」。

多少コストがかかっても、進捗のためならアルバイトを雇ったほうがいいと思う方もいるでしょう。しかし私達FLOWの経験から申し上げますと、

「長い目で見ると、AI開発における最重要リソース『時間』の損失に繋がる可能性があります」。

教師あり学習においては、大量の良質データはAIアプリケーションの成否の鍵です。学習データの精度が低い場合、連帯的にAIモデルの学習効果も悪影響を受けます。いわゆる「Garbage in, Garbage out」で、これまでの投資が水の泡に。

FLOWは独自の品質管理制度とフィードバックシステムで、ご提供するデータの品質と納期を確保し、AIモデルの学習の質と効果を向上させます。

アノテーターはそれぞれの種類のデータに対し専門的な訓練とコンピテンシー認証を受けており、更に現場投入前に該当プロジェクトの特徴についてテストを行うことで、認識と作業方式が正確であることを確認します。その他、QA・QCスタッフにも抽選で抜き打ち品質チェックを行います。

大抵のお客様が最も重視するのは、弊社が提供するアノテーションルールのフィードバックです。モデリングにはデータが必要ですが、「どんな特徴」のデータを与えれば良いのかは定義しにくいものです。

以前に、社内のエンジニアとアルバイトに鋼橋の錆のアノテーション作業をやらせましたが、あまりにも時間がかかる上に全面的な品質チェックをする余裕もないので、私たちFLOWに協力を求める日本のお客様がおりました。

建設業者に協力した経験から、スタッフはすぐに専門家に意見を仰ぐべきだと判断できました。鉄錆の物理特徴を把握し、影や汚れ、色濃い苔などを錆と誤認識しないように、正しくマシンを学習させます。

錆の形状は一定ではないので、業界ではラベリングをする際主に「ポリゴン法」で対応しています。FLOWのAIコンサルタントは慎重に判断した上、「ピクセルワイズ法」でラベリングを行うことにしました。これによりマシンラーニング用の学習データはより良質で精確なものになり、AIの開発を促進します。

アノテーションは一体どうすれば正解なのでしょうか?それは貴社のAI開発の速度と数によります。参考までに弊社の概算だと、アルバイトの採用コストとして求人費用、給与(社会保険含む)、管理者給与、作業エリア及び設備などで計算すると、実績のあるかつ品質管理もしっかりしているアノテーション代行業者に委託するほうが、最低2割のコスト削減が可能となります。

最後に、もしアノテーション代行を検討しているのでしたら、判断する際は以下の4つのポイントを参考することをおすすめ致します。

1、 アノテーションルールを精確的に定義できるか?
2、 社内に品質管理システムがあるか?
3、 随時フィードバックはできてるか?
4、 情報セキュリティ体制は堅固なものであるか?

効率よく学習データを処理し、最適化されたモデルに正確な特徴を抽出させAIの開発スピードを速めるには、どうすれば良いでしょうか?これは単に実行面の問題ではなく、全体的に考える必要のある問題です。

アノテーションで言うと、「ラベルを付けたらそれでいい」ではなく、如何により迅速にスマートに、コストも抑えた上で高精度のアノテーションを達成し、AI応用を実践するかが重要です。

画像出典:Photo by Danial RiCaRoS卡晨AksonFranck V. on Unsplash

AIプロジェクトの管理はどんな感じ?PDCA、EAPを通して障害者に活躍の場を提供するFLOW AI