in

人工知能の高慢と偏見をなくす3つの方法

文/ Flow AI Blog 編集部

要約:
1. AIは世界中の司法関係者に注目されている。企業はこれを理解した上で、先回りしてアルゴリズムの設計・開発・保守し備え、遵守する必要があります。
2. 公平性を定義し、極力データの代表性を求め、システムに潜む偏りを見極める。アルゴリズムのバイアスを抑える3つのポイント。
3. 人間の脳よりも、AIのブラックボックスのほうが逆に理解しやい。AIの意思決定プロセスの公平性を改善し、構造的差別を逆転させ構造的公平性を実現することで社会全体の利益を創出しよう。

話題を独占したApple Cardも性差別問題で一瞬にして鎮火

昨年8月、アップル社は世界有数の投資銀行ゴールドマン・サックスと提携し、アメリカで「Apple Card」なるクレジットカードを発行しました。

( 画像出典:Apple Card Society
アップルとゴールドマン・サックスの提携で発行されたApple Card

しかしそれから3ヶ月も経たないうちに、この「史上最高のクレジットカード」のアルゴリズムに性差別の疑惑があるとユーザーからの報告があり、女性が同等の条件を持っているにもかかわらず利用限度額は男性より遥かに低いことが明らかになり、その栄誉を手放すことになりました。このスキャンダルはTwitterで「クソったれな性差別」、「完全にやってしまった」などと批判され、炎上は言うまでもなく、ニューヨーク州金融サービス局(NYDFS)から法的調査を受ける羽目にもなりました。

「意図的なものかどうかは関係なく、結果として女性や他のグループを差別的に扱うアルゴリズムであればニューヨーク州法に違反する」と、リンダ・レースウェル(Linda Lancewell)報道担当がコメントしました。

その後、両社の対応は更に火に油を注ぐようなものでした――どうやら、アルゴリズムがどのように機能していて、どのように決断しているのかを説明できる人が誰もいないようで、意思決定のプロセスがまるで大きなブラックボックス。最終的に、ゴールドマン・サックス社は、「アルゴリズムの変数に性別が含まれていなかった」と主張しました。

「AIが申込人の性別を把握していないから、差別にはならないのでは?」

「デリケートな変数を排除すれば差別はなくなる、この論点は成立するのか?」

人工知能の学習バイアスの元凶は不平等の歴史にある

デリケートな要因である人種特徴が明確にデータタグとして現れなくても、遠まわしに他の関連変数を経由してデータに浸透する可能性もあります。例えばアメリカでは、過去に行われた人種隔離政策のせいで、人種と住居地・郵便番号の関連性は非常に高くなっています。

(画像出典:知乎
米国各民族の人口比率と住居地分布

これらの「隠されたバイアス」がトレーニングとテストを経て、知らず知らずのうちにアルゴリズムに組み込まれます。最終的に客観的・科学的と銘打って、いかにも公平そうに誰がローン審査を通れるか、どんな学校に入学できるか、どんな仕事に就けるか、挙げ句に仕事の評価、量刑の裁量まで決められます。斯くして偏見というバイアスの影響力は延々と強化され、自動化されたブラックボックスの中で勝手に複製を繰り返すことになります。

「入力した変数自体が差別的であるかは最早問題ではなく、アルゴリズムはとっくに独自で差別にたどり着く能力を備わっている。」

アメリカの経済雑誌フォーブスのインタビューを受けて、アルゴリズムのブラックボックスの解明を使命とするベンチャー企業フィドラー・ラボ(Fiddler Labs)の共同創設者兼CFOであるアミット・パカ(Amit Paka)氏はこう語りました。

この問題に関して、アップル社は無論最初に遭遇した企業ではないし、最後にもならないでしょう。

誰の仕業?マイクロソフト社の少女AIボットTayが、僅か1日で差別主義者に

2016年、マイクロソフト社が公開した若者向けのAIチャットボット「Tay」は、リリースから24時間も経たないうちに人種差別的なナチス主義者にされてしまいました。2018年では、EC業界の最大手であるアマゾン社のAI採用ツールのアルゴリズムには性差別の欠陥があると判明され、「女性」に関係する単語はペナルティを受けるが、それに対し男性の履歴書でよく使われる単語は優遇されているという。

(画像出典:TayTweets Facebook
マイクロソフト産のAIボットTayはTwitterで人種差別に当たる言論を発表

Tayがこのような学習結果になったのは、長年の間Googleなどの検索エンジンに「イスラム教徒は悪」、「ヒトラーは私のヒーローだ」といった人種差別的で憎悪に満ちたサジェストワードが氾濫していたことに起因すると思われます。

AIの偏り問題は、既に世界規模な課題になりつつあり

企業のみならず、アメリカ政府でさえこの問題に見舞われました。米独立系報道機関プロパブリカ(ProPublica)の報道によると、フロリダ州ブロワード郡で使用されている再犯予測アルゴリズムは公平性に欠けており、なんと黒人が「再犯する」と判断される確率は白人の約2倍で、更にこのアルゴリズムが出した結果は量刑、執行猶予、出所審査などの判断の参考として広く採用されています。

今、世界中の司法機関はAIに目をつけており、イギリスの議会では既に人工知能がもたらすリスクを抑える方法について議論を始め、「アルゴリズムによる意思決定は個人に悪影響を与え、AIとデータは犯罪や自律型兵器に利用される可能性があるため、責任の所在を明確にしておく必要がある」と認めました。

ニューヨーク市政府は、規制されるべきアルゴリズムの種類や、市民がアルゴリズムの決定に対し疑問を感じた際わかりやすくその理由を説明する方法、アルゴリズムによる差別が個人の権利を害した場合に政府はどのように介入すべきかなどの議題について助言する専門チームを立ち上げました。当初、ニューヨーク市議会は意思決定プロセスの透明性と監視性を確保し、責任の所在を明確にするために、企業にソースコードの公開を義務づけることまで提案していました。

EUの「一般データ保護規則」(GDPR)の第13条第22条では、自動化された意思決定を取り扱う際、対象個人からの意味のある説明と想定される結果を提出するように義務づけています。2020年2月、EUは更に「人工知能白書」を発表し、データトレーニングや、データと記録の保存、モデルの完全性と正確性、データの完全性、人間による監視などについてより詳細に規定し、更に選択、方法、プロセス、技術と結果が差別的ではなく、人権を侵害していない証拠を要求するようになります。

乗り遅れないために、先回りしてAIデータとアルゴリズムに備えよう

今のAI運用シーンから考えるとまだまだ遠い未来の話かもしれませんが、事前に理解を深めて遵守しておかないと、Apple Cardと同じ差別問題の罠に陥ってしまう恐れがあります。色んな文献から、アドバイスを以下のようにまとめました:

①具体的な公平性を目指してAIモデルを構築しよう

「アルゴリズムの公平性を推進する上での課題の一つは、公平性が代表する意味を定義することです」と、イギリスのアラン・チューリング研究所の研究者クリス・ラッセル氏は言いました。どのように「公平性」を定義すべきか?数学やアルゴリズムを使ってどう「公平性」を定義するのか?ラッセル氏は、「文献によると、現行の公平性に対する定義は少なくとも30種類以上あります」と話しました。

一般的な定義として、「集団非識別」(Group Unaware)、「統計均衡」(Demographic Parity)、「機会均等」(Equality of Opportunity)などがあります。

集団非識別とは、誰であれ同じ基準を適用させることで、例えば合同入学試験がその一例。一見公平なように見えますが、社会的弱者が不当な待遇を受けていてもそれを無視するし、冗長符号化(redundant encoding)の恐れもあります。

統計均衡はグループの人口の割合に応じて割り当てる、簡単に言えばクォータ制です。冗長符号化を回避できますが、今度は個人に対して不公平になります。機会均等は「団体ではなく個人」、どんなグループに所属しているかは関係なく、条件を満たしていれば選ばれる確率は同じで、本当の意味での公平に近い。

近年、「反事実的公平性」(Counterfactual Fairness)も注目されるようになりました。これはデリケートな変数(反事実)だけ変えて、意思決定自体はそのままで出力結果の変化を観測するやり方です。機会均等でも、反事実的公平性でもAIの公平性を高めるのに役立ちますが、遂行するには複数分野の知識の統合が必要となります。

Google社は、社会科学者や人文科学者を始め様々な分野の専門家を引き入れて多面的な観点を得ることを推奨しています。また、製品の潜在的な影響を評価する時、以下の問題について考える必要があります:誰の観点を代表しているのか?どのようなデータを表しているのか?何か抜けていないのか?この技術で生じうる結果は何か?使用者やグループによって異なる結果が発生するのか?どのようなバイアス、ネガティブな経験、あるいは差別が発生しそうなのか?など。 

理想は美しいものだが、現実は残酷である。全ての人を満足させることはできないのですから、年齢・民族・言語などでターゲットを絞って着実に公平性を求めるように行動し、追跡調査を続ける。更にユーザーの使用状況に基づいて、トレーニングとテスト用のデータベースを随時更新して行きます。また、異なるグループにそれぞれ違ったモデルを適用するのは、分析面でも広報面でも大惨事になりますので避けたほうがいいしょう。

②代表性のあるデータベースでトレーニングとテストを

サンプリングの偏りは要注意!実際のデータを使い、学習データの多様性と代表性を極力確保し、特定の性別、宗教、種族などの特定グループの影響力を無視したり、歪めたりしないようにするのが大事です。例えば、顔認証の場合とある少数民族の女性の誤判定率が最も高いという研究結果があるとします。これは、そのグループに関するデータが不足していることに起因している可能性があります。この場合、重み付けを考慮してもいいと思いますが、重みをつけすぎるとノイズもそれに伴い増幅され、最終的に「名字が田中の人は出世しにくい」なんて結論に至ってしまう可能性もあります。

(画像出典:Corsight オフィシャルサイト
特定少数民族の女性の顔認証の誤判定率が高いのは、データが足りないことに起因する可能性がある

可視化、クラスタ分析、アノテーションなどの手法は全て特徴、タグ、グループに潜むバイアスや差別を評価する助けになります。そんな中、アノテーションの安定性・多様性・正確性を確保するために、Google社は特にアノテーションチームに明確なタスク、報酬とフィードバックを与える仕組みを作ることを推奨しています。

「AIの偏見を目の当たりにした瞬間が忘れられない。」

元IBM Watson所属の視覚認識プロダクトマネージャーであるアリッサ氏(Alyssa Simpson Rochwerger)は、特に印象深かったエピソードを語りました。リリース前夜、トレーニングモデルの一つに「ルーザー(負け犬)」のタグが存在し、中には大量の障害者の方々がマークされていることが判明しました。そしたらもう大騒ぎになり、エンジニアからマーケティング、手の空いている人間を全員引っ張ってきて何万ものデータタグと何百万もの画像を片っぱしから見直し、更に深く隠された地雷を複数発見したという。

③AIシステムの偏りをチェック

多面的で信頼性の高いテストチームを作り耐性試験を行い、サンプルには敢えて極端なケースも多く含ませます。そうすることによりシステムの脆弱性を特定でき、影響を受ける可能性のある対象を推測することができます。

公平を期すために、全てのグループに対しモデルは同じ予測値、もしくは同じ偽陽性(AIが病気だと言うが、実は病気ではない)と偽陰性(AIが病気ではないと言うが、実は病気である)を持たねばならないと提唱する研究者もいます。

「AIのブラックボックスを開けてより深いレベルでデバッグするには、説明可能なAIに助けを求めるのもいいかもしれません。」

Apple Cardの一件を例に挙げると、 フィドラー・ラボの共同創設者兼CFOであるアミット・パカ氏はフォーブス誌の記者に「クレジットカードの審査は、年収やクレジットスコアなどの基準に依存しています。我々フィドラー・ラボのいない従来の環境では、これらの変数が何故、どうやって結果に影響しているのかを説明するのは困難である」と説明しました。しかし、説明可能なAI(Explainable AI)の技術により決断の裏にある脈絡が明らかになり、おまけに要因分析もついてきます。

「例えば、この意思決定において年収は20%のプラス影響を与えて、クレジットスコアは15%のマイナス影響を与えた、などの内訳もわかるようになります。」

ブラックボックスを解き明かしてこそ、開発者はメスで患部を切除するように、精確にバイアスを特定して修正することができます。監督当局の要求に従い、AIによる意思決定プロセスが透明で理解しやすいものであるように努力し、同時にユーザーへの告知義務を果たし信頼関係を築き上げます。そうすれば、いざ法的責任が問われた場合、もしくはそれに類する不祥事が発生した時は、優位に立って対応できるでしょう。

【 おわりに 】
AI は人間の偏見と差別を一身に背負い、教育、銀行、人材採用、司法などの制度を通じて社会の骨の髄まで浸透してきます。同時に、AIは公平性をもたらす希望であり差別への解毒剤で、法律による規制は手段の一つに過ぎないと捉える人もいます。法律の後押しのおかげで、AIに潜むバイアスを見極めるためのツールや方法は日に日に充実されつつあります。それに比べると、人間の脳のほうが究極のブラックボックスと言えるのかもしれません。

AIの意思決定プロセスの公平性を改善することで、構造的差別を逆転させ、構造的公平を実現し社会全体の利益を生み出すことも不可能ではないでしょう。

関連記事
AIプロジェクトが行き詰まる理由は?
精確なアノテーションはゴールの設定から始まる


精確なAIデータを得る方法