in

限られた資源でデータ処理!デマ撃退の専門家Cofactsとその手法

文/ Flow AI Blog 編集部

前書き:
AIプロジェクトで最も頭を悩まされるのは、おそらく最大効率を達成するためのリソース配分でしょう。もしそんな状況に置かれたら、ファクトチェックプラットフォーム「Cofacts真的假的」(以下、Cofacts)の経験はきっと参考になれます。

Cofactsは台湾の「g0v公民科技創新奨助金」という、社会問題を解決する「シビック・テクノロジー」の発展を目的とした助成金を受賞しており、現代人がIT技術を利用するとき遭遇する問題である「フェイクニュース」を防ぐために結成した市民団体が運営するプラットフォームです。

台湾のデジタル大臣として知られているオードリー・タン氏がこれに対しSNSで賞賛の言葉を贈っただけでなく、トレンドマイクロ社開発のネット詐欺防止アプリ「防詐達人Dr.Message」(以下、Dr.Message)や偽情報防止AIボット「美玉姨」、更にはタイのファクトチェック団体でもCofactsが公開したデータベースとソースコードを使用しています。

Cofactsの抱えていた悩みは、きっとあなたも経験したことがあるでしょう:企業や組織が急成長していくなか、限られたリソース、時間と経費をどのようにAIプロジェクトに振り分ければいいのか?

台湾では40代以降の人の9割以上はLINEを利用しており、その普及性とグループの閉鎖性ゆえにフェイクニュースの検知と審査が難しい。そんな流れの中、2017年にファクトチェックプラットフォーム「Cofacts」が発足しました。

Cofactsはウィキペディアの理念を踏襲し、市民主導のボランティアという形で全てのユーザーが真偽不明の噂・デマをチェックする「エディター」になれるような仕組みです。怪しい情報を見かけたら、それをCofactsの公式サイトもしくはLINEのチャットボットに通報すれば、ほかのエディターがその情報の真偽について調べたり回答したりできます。

「不思議な大自然、まるで本物!鳥の形をしたモクレンの花!🤗👍🏽」
「台東産の品種改良フルーツ、木に生えたイチゴ!色鮮やかで大豊作!」

画像:怪しげなネット情報

このような怪しげな情報に対し、エディターたちは裏付けとなる資料を探し出し、ユーザーに「ただのモクレンのつぼみだ」や「新種ではなく、イチゴを棗の木につけたものだ」と真実を明らかにしました。


データ処理戦略:自分の強みを活かしながら、助けを求めることを惜しまない

現代人の悩みに対応策を提供したCofactsは短期間で急成長し、LINEのチャットボットのユーザー数は既に20万人を上回っています。しかしそれに伴い、データベースには4万件以上の検証待ち情報が山積みになっており、とてつもないプレッシャーがかかっている状況です。

2020年初頭に、Cofactsは自分たちのAIモデルを開発することに決意しました。目的は検証待ち情報を事前に軽く審査することで、本番のチェック作業の効率を上げることです。

「モデルを作りたいなら、まずはデータが必要になる」と、

データサイエンスを担当するボランティアの一人、エンジニアのggm氏は言います。当時、独自のアノテーションツールの開発と、UGC(ユーザー生成コンテンツ)ベースのクラウドアノテーション方式を検討していましたが、最終的に考え方を改めたという。「現代組織の基本は分業といつも言っているから、じゃあアノテーションも専門家に任せるべきだと思いました。」

この決断により、Cofactsのスタッフはエディター教育の強化やチャットボットの使用体験の最適化など、大量の時間を要する専門分野にリソースを集中することができました。

同じくIT業界で働いている親友に勧められて、ggmは弊社FLOWのAIデータ処理チームに相談を持ちかけました。弊社のPMチームから、データ処理の流れについて数多くのアドバイスをもらったことが特に印象深かったと話してくださいました。

「フロントエンドにいるFLOWスタッフのおかげで、いいトレーニング成果を得られました。もうしばらくしたらお見せすることができるでしょう」とggm氏は期待に胸を膨らませて言いました。

台湾では、フェイクニュースと戦っている多くの団体はAIを利用してより良い対応効率を追求しています。しかし、似通っている命題のAIだと、そのアルゴリズムの運用戦略も同じようなものになるのでしょうか?

弊社は台湾最大のAIデータサービスチームとして、100件以上のプロジェクトに携わってきた経験から、必ずしもそうではないとお答えします。

例えば「Cofacts」とトレンドマイクロ社の「Dr.Message」はそれぞれ通報されたフェイクニュースのカテゴリタグの分類を目的としてAIを開発しましたが、アルゴリズムの運用法に関しては異なります。

画像:Cofactsの編集者たち

データ処理戦略2:データに即したアルゴリズムを

トレンドマイクロ社の「Dr.Message」のデザインコンセプトは、如何に正確かつ明確にユーザーから送られたリンクやメッセージは「詐欺か否か」を判断することにあります。詐欺メッセージやフィッシングサイトに出てくるキーワードのほとんどは何かしらのパターンに当てはめられるため、AIのトレーニングに使われたのは「文章解析」のアルゴリズムとなります。

(関連記事:ウイルスに便乗して蔓延る詐欺!「Dr.Message」が打ち出す対抗策とは

これに対しCofacts側は、プラットフォームの開放性を保ちながらユーザー全員の声を対等的なものにするためにエディターたちのリプライを削除したり、整理したりはしません。

画像:cofactsのアプリ操作画面

そのため、Cofactsはアノテーションデータを使った教師あり学習のみならず、Googleの教師データ不要なアルゴリズム「BERT」(Bidirectional Encoder Representations from Transformers)もトレーニングに採用しており、確率計算のやり方で文章のカテゴリタグを判別します。

Cofactsのバックエンドにあるデータベースには様々な議題テーマが含まれています。農業や健康をはじめ、人助け、エネルギー開発、人権、LGBT…など、13種類のタグに分けられていて、時間が立つにつれてその数も増え続けているという。

画像:偽情報の数量統計

アノテーション作業をアウトソーシングすることで、弊社が整理・分類したデータはCofactsのアルゴリズム開発において2つの大きな役割を果たしました。まず、詐欺種類のタグ分類はより正確でわかりやすくなり、モデル学習の助けとなりました。

例えば、注意深く分類された何万のメッセージの中には時折犬の捜査協力願いや、貧しい農家から作物を買って助けようなどの、既存のカテゴリに属さない「拡散希望」メッセージも潜んでいます。この場合、Cofactsはデータ処理の結果を参照して随時カテゴリタグを追加することで分類の正確さが保たれます。

そして後ろ盾となるデータベースの存在により、Cofactsはよりエディターとして適任な専門家を特定することも可能となります。フェイクニュースがあらゆる所で横行している今、それを審査するエディターたちも医療やエネルギー、農業などの各分野、各年齢層からの専門家により構成されなければ対応できません。正しい参照データがあってこそ、今後エディターを募集する際にどのような専門家に声をかければいいのかの判断基準が得られます。

Cofactsは、創設者のJohnsonが「現状を変えるために何かしたい」という志のもとに立ち上げられたという。当時のことを思い出しながら、「エンジニアという人種は、たぶん皆こうなんでしょうね」とggm氏は話しました。

画像:Cofactsのエンジニアggm氏

現在、Cofactsの在籍エディター数は既に3000人を上回っており、中には20代~30代の若者から、60代の定年退職者まで集まっていて、貴重な休み時間を使って共にフェイクニュースと戦っています。

近い将来、Cofactsはさらなる影響力を獲得するために協会やNGO団体の設立も視野に入れています。弊社FLOWも、データ処理のプロフェッショナルとして、社会問題をAIで解決するというポジティブループを繋げていくことに尽力していきます。

画像出典:Cofacts、インターネット


若水國際 AI 數據服務事業部策略顧問-簡季婕

データから学ぶ3つのこと AIをより精確的にビジネスに応用しよう!

100件以上のAIプロジェクト実績!台湾で最も信頼されるデータ処理プラットフォームの誕生秘話