M2 兵頭
paper
MLシステム導入の実証実験 (Google Health関係)
Human-Centered Tools for Coping with Imperfect Algorithms During Medical Decision-Making, [Cai+, CHI2019] Best Paper Honorable Mention
Human-Centered Tools for Coping with Imperfect Algorithms During Medical Decision-Making
Google Healthの論文。
MLモデルは画像検索において医療現場の意思決定に活用され始めている。しかし、常に専門家が期待する類似画像が提示できるとは限らない。
本研究では、Deep Learningによる画像検索への病理医のニーズを特定し、病理医とモデルが協調できる検索ツールを開発した。検索に用いられたembeddingはTCAV [Kim+, ICML 2018] 。
結果、検索された画像の診断的有用性とアルゴリズムに対するユーザーの信頼度が向上し、診断精度を損なうことなく従来のインターフェースよりも好まれる傾向にあった。
3章. USER NEEDSで専門家(病理医)が意思決定、機械学習システムに求める要件をpaper-prototype, interview, think-aloud法で明らかにして、実際にシステムを設計する流れが医療分野に問わずとても参考になると感じた。
A Human-Centered Evaluation of a Deep Learning System Deployed in Clinics for the Detection of Diabetic Retinopathy, [Beede+, CHI2020]
Google Healthの論文。
眼球画像からの糖尿病性網膜症診断に機械学習システムを導入した大規模な実証実験。タイの病院で7600人の患者に対して実際に行われた。
暗室が用意できない環境で性能が大きく劣化する問題、インターネット接続の問題、看護師がシステムの利用を推奨しない問題など現実的な(生々しい)課題が社会環境要因として述べられている。実験環境でのモデル評価だけではなく、human-centeredな評価実験の重要性が指摘されている。
“Hello AI”: Uncovering the Onboarding Needs of Medical Practitioners for Human–AI Collaborative Decision-Making, [Cai+, CSCW2019]
様々なXAI技術が研究されているものの、実際の意思決定者が必要とする情報が提示できているとは限らない。
医療専門家が診断用AIアシスタントを初めて導入する際に、どのような情報を求めているのかを調査した。前立腺がんの画像診断において21人の病理医へのインタビューを通じて、求める情報を種類を調べた。
臨床医は予測結果の背後にある局所的な症例別の推論に関する情報より、モデルの基本的なグローバルな特性に関する情報 (既知の強みと限界、主観的な視点、全体的な設計目的、何を最適化するように設計されているか)を必要とした。
human-AI onboarding phase (現場の意思決定者にとって、初めてAIシステムが導入されるフェーズ) での調査方法として、医療分野に限らず価値があると感じた。
XAIのユーザ評価
Explaining Decision-Making Algorithms through UI: Strategies to Help Non-Expert Stakeholders, [Cheng+, CHI2019]
説明性を意思決定に活用するユーザ調査が盛んに研究されているが、現状の研究には2つの課題がある。1. 可視化、説明が専門家(ML Engineer, 知識がある人)のためのものであること、2. non-expertへの調査は一般的なタスク(画像分類, 翻訳)がほとんどで、より実践的なタスクでend-userを調査したものは少ない。
本研究では、機械学習モデルが意思決定のためにどう機能しているかを伝える説明UIの設計原理を目指す。大学入試の合否を判定するタスクを用いて199人の参加者が複数の説明UIを使用するオンライン実験を実施し、アルゴリズムに対する客観的な理解度と自己申告による理解度を測定した。
その結果、対話的なインタラクティブな説明と"ホワイトボックス"(アルゴリズムの仕組みを示す)説明の両方がユーザの理解度を向上させることが明らかとなった。一方で、モデルの判定に対するユーザの信頼度は説明UIによらないことも明らかとなった。
Identifying the Intersections: User Experience + Research Scientist Collaboration in a Generative Machine Learning Interface, [Kayacik+, CHI EA2019]
機械学習が関わるプロダクトのインターフェースはML研究者の範囲を超えて、異なる視点をもつ複数の役職が積極的にコラボレーションすることでより魅力的なプロダクトになる。
機械学習モデルの作成において、UX研究・デザインの関与は人間のニーズをより効果的に特定することを可能とする。そこで、Google社内のPeople and AI Reasearch(PAIR)グループはUXデザイナーを3ヶ月間ML研究グループに合流させるという斬新なプログラム手法を設計。作曲を支援するモデルMagentaにて。
プログラムの目標、課題、結果と洞察に関してケーススタディとしてまとめた。機械学習インターフェースの構築の際に推奨されるUXデザインプロセスを提案。
COGAM: Measuring and Moderating Cognitive Load in Machine Learning Model Explanations, [Abdul+, CHI2020]
COGAM: Measuring and Moderating Cognitive Load in Machine Learning Model Explanations
機械学習モデルにおいて、その精度と説明のシンプルさはトレードオフの関係にある。
本研究では、グラフ理解に関する認知心理学の理論に基づいて、認知負荷を緩和した説明の可視化を生成する Congnitive-GAM (COGAM)を提案した。これらは、非線形一般化加算モデル(GAM)とシンプルなスパース線形モデルを組み合わせることで生成する。
4つのデータセットを用いた認知不可の精度に関するユーザ実験の結果、COGAMはユーザのベースラインに対して精度を低下させることなく認知負荷が軽減できることが明らかとなった。認知不可の測定手段が解釈可能性の評価として用いられるべきであると主張。
Understanding the Effect of Accuracy on Trust in Machine Learning Models, [Yin+, CHI2019] Best Paper Honorable Mention
Understanding the Effect of Accuracy on Trust in Machine Learning Models
公表された機械学習の性能に基づくユーザの信頼に関する研究。
機械学習モデルの公表されたデータ上での性能と、そのモデル導入後に期待される性能間の関係に対するユーザの信頼度に着目。AMTを用いた757人のクラウドワーカーによる大規模な無作為化実験を行い、モデルに対する信頼度が、"モデルの出力と一致するように予測を修正する頻度"と"モデルに対する自己申告の信頼度"の両方の観点から測定されるかどうかを調べた。
実験の結果、ユーザのモデルへの信頼度は公表された精度と観測された精度に影響を受け、公表された精度の効果は観測された精度によって変化することが明らかとなった。解釈可能な機械学習の研究を超えて、機械学習パイプラインにおける新たなコンポーネントの探求に関する研究だと主張。
標準的なXAI要素技術
"Why Should I Trust You?": Explaining the Predictions of Any Classifier, [Ribeiro+, SIGKDD2016]
"Why Should I Trust You?": Explaining the Predictions of Any Classifier
機械学習モデルの説明性の先駆け。
モデル非依存で局所的な解釈性が可能な説明手法LIMEを提案。元の特徴量(ex. テキスト、画像)を説明可能表現(ex. Bag-of-Words, super pixel)に変換して、あるデータ点の近傍のサンプルを用いて説明したい決定境界を線形近似する。
テキスト分類から画像分類までタスクに依らずに柔軟に応用可能。クラウドソーシングを用いたユーザ評価まで行われており、LIMEの説明によりモデルのバイアスを一般ユーザに認知させることができた。