第4回:そのグラフ本当に正しいの?~詐欺グラフに陥らないデータの可視化倫理~

AI技術チームによる技術発信

AI技術チームの松永です。私が豆蔵に入社してから早くも4年が経ちました。入社当時は、12人程度であったデジタル戦略支援事業部も今や30人近くのメンバーが活躍する部署になりました。そのような中でAI技術チームというチームの立ち上げに関われたことを嬉しく思っています。

さて、今回の技術発信ですが、詐欺グラフ(Misleading graph)をご紹介したいと思います。データ分析において重要なデータの可視化ですが、誤った作り方をしてしまうと、見る人に誤解を招いてしまうグラフとなってしまいます。詐欺グラフについて、いくつかのパターンをご紹介しますので、皆さんが可視化する際には、見る人を騙しかねないグラフを作らないように気をつけてください。
 

詐欺グラフ(Misleading graph)、誤解を与えやすい可視化

データの可視化は、ただの文字や数字の羅列であるデータを分析し、価値のあるアイデアや洞察を理解・伝えるための最も効果的な手法の一つとなります。そのため、データを可視化する際には、見る人に誤解を与えないようにすることが大切です。誤解を与えやすい可視化のことを、詐欺グラフ(Misleading graph)と呼ぶことがあります。
 

No.1:ベースラインが0ではない棒グラフ

一般的にグラフのベースライン(基準線)は、特に指定がない限り0から開始する必要があります。ベースラインを別の数値から開始することで、データの認識に偏りが生じます。データ間の比較的小さな変化でも重大な変化である、という誤った印象を与えることがあります。

例1:縦軸のベースラインが0ではない棒グラフ
左右とも同じデータから作った棒グラフですが、右図は縦軸(y軸)のベースラインが900からになっており、小さな変化が大きく見えるようになっています。

縦軸のベースラインが0ではない棒グラフ

ベースラインは0ですが、途中でグラフを波線で省略しているケースもここで紹介しておきます。データ間の相対的な差異がよくわからなくなっています。

ベースラインは0ですが、途中でグラフを波線で省略しているケース

No.2:比率・間隔が歪められているグラフ

比率・間隔が歪められているグラフとは、折れ線グラフのx軸とy軸の比率(グラフの縦と横の長さの比率)を操作したり、円グラフの面積を意図的に歪めたりして、グラフの見た目を変える=見る人に与える印象を変える、というものです。
面積や線分によってわかりやすくしているグラフを、逆にわかりづらくさせています。グラフを見るときは、図形だけでなく必ず数値も確認して、正しい情報を読み取るようにしましょう。

例2:x軸とy軸の比率を変えたグラフ
上下とも同じデータの折れ線グラフですが、 x軸とy軸の比率が異なっています。そのため、グラフの見た目が変わっています。

x軸とy軸の比率を変えたグラフ
x軸とy軸の比率を変えたグラフ

例3:径の長さが異なる円グラフ
円グラフの各扇部分の径の長さを変えることで、40代の大きさと60代の小ささを強調しています。

径の長さが異なる円グラフ

このように径の長さを変化させた状態の円グラフは、3D化すると更に誤解を生む詐欺グラフになります。上部を奥に傾けて遠近法効果で手前を大きく広く見せるような3D化を行うと、どの項目が大きな値を持っているかがわからなくなってしまいます。
 

No.3:誤認を誘う二軸グラフ

棒グラフと折れ線グラフといった複数のグラフを組み合わせて、左側に第1軸(棒グラフ用)、右側に第2軸(折れ線グラフ用)といったように、それぞれの項目にあった単位で縦軸を作成したグラフを二軸グラフと言います。 (棒グラフと折れ線グラフの組み合わせは一つの例です。)異なるデータ系列を1つのグラフで表すことによって、複雑なデータもわかりやすく表現できます。
このような二軸グラフですが、単位の異なる2つのグラフを、あたかも同じ尺度で測られているかのように並べて作られている場合があります。
規模が大きく異なる業界や企業、製品があたかも同規模であるかのような印象を与えるために使われることが多いので、気を付ける必要があります。

例:二軸で単位が異なる二軸グラフ
第1軸、第2軸で、大きく異なる単位が並列されています。それにより、商品Bの売り上げが商品Aの売り上げにあたかも迫っているように見られます。
(単位が異なるので、実際は、商品Aの売り上げの方が商品Bより大きいままです。)

二軸で単位が異なる二軸グラフ

No.4:項目の分類が恣意的なグラフ

項目を分類してグラフを作成する際に、分類の粒度を恣意的に変えてしまっていることがあります。
年齢層を意図的に偏らせて分類する場合や、他社の商品のみ細かく分類することで自社商品の売上が一番多いように見せるといった場合があります。
グラフの項目はいくらでも意図をもって設定できるため、グラフを見る人は、公平な分け方がされているかについて注意する必要があります。

例:年齢層の分類が偏っている棒グラフ
若年層、ミドル層だけ20年単位で利用者数をまとめることで、若年層、ミドル層、シニア層にまんべんなく人気のある商品だと見せています。

項目の分類が恣意的なグラフ

 

No.5:3Dにすることで手前を大きく見せているグラフ

3Dでグラフを作成することで、遠近感によって手前の項目を大きく見せかけているグラフです。
平面で表現することが可能なデータをわざわざ3Dで表現しているということは、何か作為的なことがあると疑ったほうが良いかもしれません。

例:手前を大きく見せている3Dグラフ
遠近感で、利用者数が年々増え続けているかのように見せています。実際は、2019年から2020年で利用者数は減っています。

手前を大きく見せている3Dグラフ

 

以上が、詐欺グラフと呼ばれるグラフのご紹介となります。
今回は詐欺グラフの事例を5つご紹介しましたが、より多くの詐欺グラフのパターンが存在します。
詐欺グラフに騙されないために、
1.データソースはどこで、誰が、何の目的で作成したグラフか
2.何に関する、どんな数値を表わすグラフか
3.複数のグラフの場合、基準点が一緒か、グラフが途中で端折られていないか
4.複数のグラフの場合、単位が同じか、目盛りの幅が同じか
5.無意味な装飾や3D化がされていないか
といったことを確認しましょう。

この記事では、データ可視化の方法という観点から詐欺グラフをご紹介しました。一方で、データを分析する、グラフを作成するというときには、実行者の倫理も大事な観点となってきます。データサイエンティスト、データエンジニア、AI開発者、データアナリストなどは、自分自身が倫理意識を持って仕事をし、その仕事がどのような結果や影響をもたらすかを十分に考えなければいけません。例えば、性別、偏見などの点でデータに偏りがないか、特定のデータだけ優位とする偏ったアルゴリズムを作っていないか、プライバシーを侵害した分析を行っていないかなど、職業倫理に基づいた判断をしなければなりません。
また、使用したデータは正しいものであるか、誤ったデータや意図的な偏りを持ったものでないかといったファクトのチェックと、今回ご紹介した詐欺グラフのように、事実を捻じ曲げ、作為的な表現がされていないかといったファクトの表現のチェックも行う必要があります。昨今、インフォグラフィクスといったデザイン性を重視したデータの可視化が流行しております。そういった表現方法がデータのファクト性を歪めていないかという観点は、常に意識しておいた方がよいでしょう。

最後は少し小難しい話になりましたが、皆さんは、詐欺グラフのような可視化を行わないように、また、グラフの見方に気を付けるようにしていきましょう!