第12回:説明可能AIにわれわれはどんな説明を求めているのだろうか

AI技術チームによる技術発信

AI技術チームの石川です。最近のAI研究および活用の進展は目覚ましく、ChatGPTをはじめとする大規模言語モデルの一般社会への展開や、我々の記事でも以前紹介した画像生成AIの普及が広がっています[1]。産業界のAI活用においても、これまでは企画検討や技術実証等の今後の活用を見据えた準備的なフェーズから、本番適用に向けた動きが一気に広がってきているような印象が我々の普段の業務の中でも感じられます。その中でたびたび聞かれるのが、

「AIの出す結果を信用してよいかわからない」「AIを導入してしまって本当に大丈夫か」という懸念の声です。このような声は、検証段階で高い精度が出ている場合でも聞かれることがあります。これは妥当な懸念と言えるのでしょうか?それとも、新しい技術という未知のものに対する非合理的な恐怖心にすぎず、排除されるべきものでしょうか*。

本記事では前半でAIの信頼性について検討した後、後半ではAIの信頼性を確認するために有益であると考えられている説明可能 AI (解釈可能AI) について、どんな説明が求められるかについて検討したいと思います。説明可能AIはAI活用のリスクマネジメントやガバナンスの観点で海外ではすでに広く導入が検討されており、国内においても総務省「AI利活用ガイドライン」でその重要性が指摘されています[2]。本記事の最後では、我々が独自に考案した説明可能AIの手法についてご紹介いたします。

* 以降は AI とは、特に断らない限り、自ら用意したデータにより学習された、予測や識別のための機械学習モデルのことを指すものとします。

AI 導入の様々な落とし穴

精度が出ている場合でもAIを信用してよいかどうかわからないという不安感は、結論から言えば重要な観点であり、適切なタスク設定をできているかどうかをじっくり吟味するためのきっかけとして有用であると考えられます。逆に、AIの精度評価を精査しないまま無反省に受け入れ、軽率に本番運用を開始してしまう方が余程リスクがあると言える状況が多いように感じます。もちろんこれらは程度問題であり、慎重になりすぎることも、検討が不十分なこともともに避けるべきことです。そのような前提の下で、我々が最近見聞きした多数の事例から判断すると、「AIの挙動の検証が十分でなかった」つまり「AIを信用できない」という直感が当たっていたというケースは決して少なくないという実態があります。

以下、一見精度が出ているように見えても実は本番運用では性能が出ない状況の例を示します。

1. 評価の仕方が適切ではない

AI開発において、本番運用を模擬するような状況を設定して精度評価を行うことは決して簡単ではありません。持っているデータを学習データ、検証データ、テストデータに分割する方法や、交差検証といった方法がよく用いられますが、その背後に潜む隠れた仮定に気づかないままこれらの評価を行うことで、不適切な精度を算出してしまう場合があります。

例えば、本番運用時に想定される精度をテストデータにより適切に評価するためには、テストデータが本番データをよく模擬している現実的なデータであり、かつ似たような性質のものに限られない十分なバリエーションを持つ必要があります。バリエーションが少ない場合は、テストデータに含まれていないタイプのデータの予測精度が低かった場合にも気づくことはできません。

他にも、学習データとテストデータの分割方法が適切でない場合に評価に問題が生じることがあります。同一グループに属する非常に似通ったデータが学習データとテストデータにそれぞれ含まれている場合、精度は高くなりやすくなります。しかし、このような同一グループに属するデータを事前に学習しておくことが現実的ではない場合、実運用で達成する精度はずっと低くなることがあり得ます。このような場合は、学習データとテストデータに同一グループのデータが含まれないように交差検証を行うグループ K-fold 法がよく用いられます。データの性質および実運用時の環境を正しく把握したうえで、適切な手法を選ぶことが重要です。

2. 本質的ではない要素に注目している

学習データやテストデータに対して一定の性能が出ていたとしても、予測や識別を行うために本質的ではない情報に基づいている場合があります。例えば、画像認識である個人を識別するAIモデルにおいて、その対象者が学習データおよびテストデータにおいて常に同じアクセサリーをしていた場合、アクセサリーからその人であると判定してしまうことがあり得ます。実際には別の人が同じアクセサリーをつけている場合や、対象者がそのアクセサリーをつけていないこともあり得ますので、アクセサリーから判別してしまうことは不適切だと言えます。

このような状況を避けるためには、判断のために本質的ではない情報を参照すべきでないことを AI に認識させるため、できるだけ多くのバリエーションのデータを学習させるのが効果的です。しかし、どのようなデータをどのぐらいの量用意できれば問題が起きないかは一概には言うことはできず、このような状況に陥らないようにすることは容易ではありません。

3. データの分布が変化した

1や2に当てはまらない場合で、本番運用開始当初は AI の性能がうまく発揮されていた場合でも、時間経過後に性能が低下するということがあり得ます。機械学習では予測や識別を行うために利用されるデータである「説明変数」と、予測や識別の対象である「目的変数」の間に関係性があることを利用して予測や識別を行いますが、この関係は常に絶対不変であると保証されているわけではなく、時間とともに変化することがあります。これは以前の記事で紹介したドメインシフトと呼ばれる状況の一例です[3]。これまでと傾向の違う説明変数と目的変数が登場するとこれまでと同じ基準で予測できるとは限らず、予測が当たらなくなる可能性があります。

例えば、人間の行動に関するデータなどは、時期によって変化しやすいデータの一例です。あるときにトレンドとなっていたものが一定時間後に一気に注目されなくなるということがあり得るでしょう。他にも、製造業の生産設備のデータなどでも、機器の経年変化に従ってデータの傾向が変わっていき、同じ AI では品質予測や異常検知ができなくなる、ということが起こり得ます。

説明可能 AI による課題へのアプローチ

これらはいずれも AI 開発者は注意深く避けなければならない問題ですが、ときには非常に気づきにくい、もしくは全く気づくことが現実的でないような場合もあり得ます。そこで、単純に精度の数値を確認するだけでなく、AI の判断に対して追加で情報を得られるような手法があれば、有益であることが期待できます。しかし困ったことに、深層学習をはじめとする高度な AI モデルは非常に複雑であり、どのように予測や識別を行っているかを説明することは困難で、ブラックボックスであると捉えられてきました。

そこで、AI の判断に対する追加の情報を提供しようと、さまざまなアプローチを試みているのが説明可能 AI (Explainable AI, XAI) ないし解釈可能 AI (Interpretable AI) と呼ばれる分野です[4]。説明可能AIは一見ブラックボックスに見える AI の判断に対して説明を加えることで AI 導入に対する心理的抵抗感を軽減するばかりでなく、上記のようなAIの本番運用時の問題にいち早く気づくヒントとなる可能性があります。

説明可能 AI として代表的なアプローチには、説明変数の中で目的変数の予測に大きな影響を与えたものを提示するという方法があります。LIME [5] や SHAP [6] といった手法がこのアプローチのうち代表的なもので、例えば「このきのこは食べられない」という判断に対し、「悪臭がすること」の影響が大きいといった説明を加えることができます (LIME の Github リポジトリ[7]に掲載の例)。他にも、畳み込みニューラルネットワークによる画像分類モデルに有効な Grad-CAM [8] という手法も同じアプローチだと言えるでしょう。Grad-CAM は画像中のどの部分が AI の判定結果に影響が大きかったかを視覚的に示すことができる手法です。

説明可能 AI がどう説明してくれれば AI は信頼できるか?

LIME, SHAP や Grad-CAM のような説明変数の重要度を確認する手法は、上記1?3の問題のうち2の「本質的ではない情報を参照している」かどうかを確認するためには有効であると考えられます。顔認証AIの場合、Grad-CAM を用いれば、人の顔自体がAIの判断に対して重要であるか、それともアクセサリの部分が重要であるかを表示することができ、適切な部分に注目しているかどうかを確認することができます。

それでは、1の「データの評価に関する問題」や、3の「データの分布が変化した」場合にはどうでしょうか。説明変数の重要度が分かっても、評価するデータの分布が不適切なことや、本番移行後のデータ傾向の変化に直接的に気づくことのできる情報は得られないように思われます。

ここで一歩AIから離れて、人がある判断を行う際、その判断が信頼できるかどうかについて、どう考えるべきか検討してみましょう。例えば、ある人がある画像を見て「写っているのは猫だ」と判断したとします。その判断はどうして信頼できるでしょうか。もちろん、「耳の部分に注目した」という、説明変数重要度に対応する情報は有益でしょう。それに加えて、われわれは「その人が猫に詳しいかどうか」で信頼度を決めるのではないでしょうか。猫をほとんど見たことがない人の判断は、たとえ耳に注目していたとしてもあまり信頼感がありません。他の例として、病気に関する判断は、同じ判断であって医療関係者とそうでない人では全く信頼感が違います。

同様に考えてみると、AI が「いま判断したいと思っていることの専門家であるかどうか」が分かれば、信頼度を確認することができそうです。これは言い換えると「どれだけ対象物について知っているか」、「どれだけ対象物について見てきたか」、すなわち「どれだけのデータを学習したか」に注目すればよいということだと考えられます。とはいえ、単純に学習データの量だけを示してもあまり参考にならないかもしれません。いま判断したい対象とあまり関係のないデータばかり大量に学習していてもあまり判断の参考にならないかもしれないからです。そのため、「学習した中でいま判断したいものと似ているもの」を示すのが有効と考えられます。病気の例では、「患者とよく似た症例の知識がある」医者の判断には説得力があります。猫であるかどうかの判断は、似た猫を飼っていればかなり信頼できると言えるでしょう。

類似の学習例で信頼性を示す ?われわれの開発した独自手法

我々 AI 技術チームは、学習データの中から今回判断したいものと最も似ているものを選び出し提示することでAIの判断に追加情報を提供し、AIの信頼性を確認する手法を開発し、国際査読論文誌に発表いたしました[9]。図1に、手法の出力イメージを示します。

図1 われわれの開発した説明可能AI手法、What I Know (WIK) の適用例。「関連情報」参照。
図1 われわれの開発した説明可能AI手法、What I Know (WIK) の適用例。「関連情報」参照。
 

この手法では、単にデータ自体が似ているものを示すだけでなく、データが似ているかどうかという判断自体もAIに行わせていることがポイントです。単にデータが似ていることを判定しても、表面的にデータを構成する数値の組み合わせが近いというのみであって、予測や判断を行う文脈において似ているものであるとは限りません。例えば、画像データが似ているかどうかは、単純な比較では面積割合が大きい背景の色合いなどが判断の主要な要素を占めてしまいますが、背景ではなく対象物の方がAIの判断にとって本質的なはずです。われわれの手法では、例えば動物を判定するAIに対して適用すると「これが何の動物であるかという文脈において」似ている画像を判定します。

この手法により、上記の問題1や3に対して参考情報が得られると考えられます。問題1の「評価の妥当性」については、この手法により提示された「最も似ているデータ」があまりにもテストデータと似通っていた場合には、学習データとテストデータが互いに独立なものとなっておらず、評価が適切でない可能性を疑うことができます。もちろん、定点監視カメラや製造業の品質管理データなど、異常がない場合には非常に似通ったデータになる場合も現実にはあるため、類似度が高いことが直ちに問題となるとは限りません。そのような場合でも、「最も似ているデータ」の類似度が現実的かどうかを疑い、改めて確認してみることは有益だと考えられます。問題3に対しても、「最も似ている」と AI が判断するデータがあまり近くなかった場合など、データの傾向変化にいち早く気づくことができる可能性があると考えられます。図1の通り、我々はこの手法を、人工衛星により取得された地上観測データに適用しました。この手法は限られた分野のみでなく、幅広い分野に適用可能です。

豆蔵のデータ利活用サービス

AI技術の発展の中で、われわれはAI技術を使いこなし、かつ過信しないようにバランスをとっていくことが重要になってきています。その中で、AIの信頼性を確認することができる説明可能AIの手法は今後ますます必要性が高まっていくと考えられます。

豆蔵では、今回紹介した独自の説明可能AI手法を活用し、AI活用の落とし穴を避けてAI利用の実現を支援するデータサイエンス・エンジニアリング支援サービスを提供しています。豆蔵ではAIを使って何をするかというサービス企画、技術実証からシステム化まで対応しており、フェーズ間での分断をなくし、真にユーザーに価値あるAIサービスの提供をご支援いたします。

参考文献

[1] 豆蔵 技術情報 AI技術チームによる技術発信「第10回:テキストから画像生成を行うAIモデルの紹介」https://www.mamezou.com/techinfo/ai_machinelearning_rpa/ai_tech_team/10
[2] 「AI利活用ガイドライン~AI利活用のためのプラクティカルリファレンス~」p. 24-25
https://www.soumu.go.jp/main_content/000809595.pdf
[3] 豆蔵 技術情報 AI技術チームによる技術発信「第3回:ドメインシフトと機械学習の性能低下」https://www.mamezou.com/techinfo/ai_machinelearning_rpa/ai_tech_team/3
[4] 説明可能 AI の手法を幅広く紹介している一例としてC. Molnar “Interpretable Machine Learning” がある。以下に日本語訳が全文公開されている。
 https://hacarus.github.io/interpretable-ml-book-ja/index.html
[5] Ribeiro et al. ”Why should I trust you?”: Explaining the predictions of any classifier, 2016, ArXiv: https://arxiv.org/abs/1602.04938
[6] Lundberg S. and Lee S. “A unified approach to interpreting model predictions,” 2017, Arxiv: https://arxiv.org/abs/1705.07874
[7] https://github.com/marcotcr/lime
[8] Selvaraju et al., “Grad-CAM: Why did you say that? Visual explanations from deep networks via gradient-based localization,” 2016, https://arxiv.org/abs/1610.02391
[9] S. Ishikawa et al. "Example-based explainable AI and its application for remote sensing image classification," JAG, Vol. 118, p. 103215, 2023. https://doi.org/10.1016/j.jag.2023.103215

関連情報

-    豆蔵 AI技術チームが開発した「何から学んだか」で予測を説明するAI手法を国際論文誌に発表
-    豆蔵 『データサイエンス・エンジニアリング支援サービス』データ利活用支援