A Guide to Guides
Guidesのガイド
Quartz読者のみなさん、おはようございます。世界はいま何に注目し、どう論じているのか。週末ニュースレターでは、米国版Quartzの特集〈Guides〉から1つをピックアップし、編集者の若林恵さんに解題していただきます。
──こんにちは。
はい、こんにちは。
──今回の〈Guides〉は、「データ」というお題なのですが、案外さっぱりした内容で、「%をどう理解するか」とか「データを読むときに季節を考慮しよう」とか「ピボットテーブルをうまく使おう」とか、非常に実利的な感じです。
とりわけ新型コロナに関するデータをどう読むかが中心的な問題意識だと思うのですが、実際、データというものを読むのは難しいですね。
つい先日、ソーシャルメディアのトレンドに「東洋経済オンライン」の記事が上がっていまして、「ネット炎上参加者『実は高年収』という仰天実態〜『暇な若者』でも『低学歴ひきこもり』でもない」というタイトルで、いかにもバズりそうな記事ですが、ここには2回計6万人のデータを用いた実証研究の結果が明かされておりまして、「炎上参加者の肩書き分布」という円グラフが掲載されています。
──面白いですね。
ざっと見てみますと、こんな結果です。
- 主任・係長クラス以上の役職:31%
- 一般社員:30%
- 個人事業主・店主:9%
- 無職/主婦/バイト/学生:30%
──ふむ。
これに、炎上参加者と非参加者の世帯年収平均の比較のデータが加わっていまして、それによれば、炎上参加者は「670万円」、非参加者は「590万円」となっていまして、その結果、「参加者は『実は高収入』」というタイトルになるわけなのですが、コメント欄を見ていて面白いなと思ったのは、多くの人が盛んに、「金持ちは心が貧しいってことか」とか「高収入と引き換えに大事なものを失ったのか」といった、おそらくタイトルに釣られる格好で、「炎上参加者は金持ち」という認識をそのまま鵜呑みしているようなのですが、非参加者の平均と較べて、年収は80万しか違わないわけですよね。これ、月でいえば、6.66万円しか違わないということなので、「炎上参加者」が劇的に金持ちなわけではないようにしか見えないんですよね。
──その6〜7万が大きいのだという話はありそうですけれども、とはいえ、その人たちがまったく異なるクラスターのなかにいると考えると、間違いそうな気もしますね。
役職つきといっても「主任・係長以上」ですから、周りを見回して「主任・係長以上」をもって「金持ち」と呼ぶのは、ちょっと厳しいのではないか、という気はします。
ちなみに「貧乏人は炎上に参加している暇はない」といったコメントも割とあったのですが、2017年の日本全国の平均世帯年収は「551.6万円」だと言いますから、ここでデータを取った「非参加者」がとりわけ貧乏というわけでもないようで、むしろ平均よりは高かったりします。
──そもそもTwitterをやっている人口の世帯年収は平均より高い、というようなことがあるんでしょうかね。
というようなことも考えられますよね。もちろん、このデータ自体のクレディビリティを疑うつもりはまったくなく、ここで言いたいのは、タイトルの影響からか、非常に強く「格差」という論点が打ち出されているために、読む側が自動的に、その論点に沿うように数字を見てしまっている可能性があるのではないか、ということです。
The data deluge
データの洪水
──なるほど。
自分の見方が正しいと主張する気もないのですが、自分がこの記事を読んで感じたのは、「炎上」というのは極めて中産階級的な現象なのだな、ということでして、そこに「肩書き」というファクターを差し込んでみるならば、おそらくその大半は「中間管理職」として定義すべき人たちのようにも自分には思えますので、結論的には「炎上参加」へと向かう人たちのモチベーションは、上にも行けず下には行きたくないというところで「中」にスタックした人たちの心理にあるようにも見えてきます。
──中流の中間管理職ですか。
というのも、2014年にロシアのカルト教団について、元・外務省主任分析官の佐藤優さんにインタビューをさせていただいたことがあるのですが、そこで佐藤さんはこんなことをおっしゃっていたのが非常に印象に残っていまして。ちょっと引用させてください。
「中産階級は信仰をもちません。自分たちの生活が第一で、何に対しても不満をもちます。これは世界的な傾向ということができるでしょう。けれどもその一方で、そうした中産階級層がなくなりつつあるという傾向も、いま世界的には起こっています。高給取りになるか、低所得者層になるか、そうした二極化がどこでも起きている。ユニクロの柳井(正)社長の言う『年収1億か100万か』の世界です。国や会社はもはやあてにならない。そんななか、自分の収入が1億か100万かと言われればほとんどの人が、100万円になるかもしれないという恐れを抱きますよね」
佐藤さんがここで、中産階級は「何に対しても不満をもつ」とおっしゃっているのは、本当に面白い指摘だと思います。
──上も気に入らなきゃ、下も気に入らない、と。
佐藤さんのことばを敷衍すれば、そもそも中流という層そのものが、独善的なのだともいえるわけですよね。と考えると、「一億総中流」と呼ばれた状態が崩壊しているなかで、多くの人を蝕んでいるかもしれない精神的不安は、“金持ちの不安”ではなく、“中産階級の不安”のように思えてなりません。しかも数万円の世帯収入の差を「格差」として認識して、そのなかで「金持ちは心が貧しい」と言っていること自体がすでに「何に対しても不満をもつ」、極めて中産階級的な意識のようにも感じられます。
といって、自分もその中産階級の一味なので、あらゆることが気に入らないのは同じなのですが(笑)。
──本当のお金持ちが、そんなふうにほいほいと炎上参加するとも思えませんしね。
ちょっとデータの話から逸れてしまってはいますが、そもそもの難しさとして、データを取るためには「肩書き」や「世帯収入」といったパラメータの設定が必要となるわけですが、そうしたパラメータは、データを取る主体の仮説をベースに設定されることになりますから、その仮説がズレていたとするとデータそのものの意味がなくなるわけですよね。
──えーと。
例えばですが、「炎上参加者には猫好きが多い」ということを表すデータがあったとして、それがデータとしては厳格なものであったとしても、まず前提として、そのデータを取るためには仮説として、炎上参加と猫好き、には因果関係があると思う必要があるわけですよね。
あるいは、ランダムなデータのなかからそうした傾向を抽出しうることもありうるとも思うのですが、その因果関係にフォーカスするためには、そこに「意味」を見出すという作業が必要で、そこに意味が見出されなければ、その傾向はきっと放置されることになるはずなんです。
──難しい話ですね。そういえば、昨年、中国の平安(ピンアン)保険という会社に視察にいったことがありまして、そこはデジタル企業としても中国指折りの企業なのですが、AIを用いた事例として、人の顔面の画像解析から、自動車事故を起こす可能性の高い人を割り出すというサービスを見せてもらったのですが、これって、パッと聞くと反射的に「おいおい、そんなことやって大丈夫なのか」と思う内容ですよね。
──交通事故を起こしそうな顔があるってことですよね。
はい。それはさすがに問題があるんじゃないかと、視察に同行した日本人からも轟々と非難が上がりまして、もちろん自分も相手方にあれこれ詰問したのですが、相手は、 たしかAIの開発責任者だったはずですが、結構しれっとしているんですね。で、「あれ?なんかこっちが何かを見落としているのか?」という気分になってきて、あれこれ考えてしまったのですが、要は、相手方は、「データはそういう傾向を示している」ということをただ言っているだけなんですね。で、「そのデータをサービス化できるので、それをサービス化しただけだ」と、非常にドライな感じなわけです。
──どういうことなんでしょうね。
そこで感じたのは、おそらくこちらは、「そこに明確な因果関係があることが説明できない限り納得し得ない」と思っているのだけれども、相手は「AIがそう言っているのだから因果は明白だろう」と思っているということなんじゃないかということなんですね。
──「データが猫好きと炎上参加者の因果関係を示しているのであれば、そうなんだろう」という感じですか。「それに意味あんのか?」とか「猫好きに対する冒涜だ」とかは思わないんですね。
そうなんです。ここ、なかなか微妙なところなのですが、彼らの観点からいくと、彼らは「炎上参加者」を定義しようとも、「猫好き」を定義しようとも思ってはいないんですね。けれでも、わたしたちは、どうしても、それを「猫好き」あるいは「炎上参加者」の「属性」として理解しようとしてしまうんだと思うんです。「猫好きへの冒涜だ」という反応があったとしたら、それは、そのデータが「猫好き」を定義しているように感じられるからですよね。
──でも、別にそういうことではないと彼らは考える、と。
よくわからないんですが、どうもそこら辺に明白な違いはあって、どちらがいいとか悪いという話でもないとは思うのですが、自分たちがもっている思考のバイアスを突きつけられたような気はしました。
──面白いですね。
これは、ずっと統計モデルによる「説明」をめぐって指摘されている問題で、これもだいぶ前に自分が編集した記事で、「ことばと世界──コンピューターはいかにそれを理解するのか」というものなのですが、ここでは世界的な言語学者のノーム・チョムスキーが、いわゆる統計モデルによる「説明」というものを、伝統的な説明を擁護する立場から、こう批判しています。
「チョムスキーは、この手法を昆虫行動の統計モデルと比較する。例えば、ハチの群れのヴィデオ映像が十分にあれば、研究者はハチが次に行うかもしれない行動を予測できる統計モデルをつくり出せるかもしれない。しかし、チョムスキーに言わせれば、その統計モデルでは、ハチがなぜそのようなダンスをするのか、その真の理由を説明したことにはならない」
さらに世界的な数学者であるピエール・ドリーニュによる批判が、こう続きます。
「コンピューターによる証明をわたしは信じません。わたしはとても自己中心主義なのです。わたしが理解できて、明らかだと思えれば、その証明を信じます」
──うーむ。「信じるか/信じないか」の話になってきてしまうと、これは、なかなか厄介な問題ですね。
そうなんですよね。自分なりに「意味」が見出せるか、という話になってしまうと、これはもう科学的客観性の話ではなくなってしまいますよね。というより科学的客観性とは何か?という問題ともいえますが。
この問題は、別の記事でも扱ったことがありまして、それは、すでに10年前のもので、Googleの創設者のひとりセルゲイ・ブリンと医学界の、パーキンソン病をめぐる対立を扱ったものなのですが、セルゲイ・ブリンは当然、ビッグデータによる統計を用いて解決策を探るべきだと考えるのですが、医学界は、病気の原因が特定されない限り治癒はない、と反発するわけです。
──どっちがいいとも判断できないですね。難しい。
なぜセルゲイ・ブリンがこの問題に取り組んでいたかというと、遺伝子解析によって自分自身がパーキンソン病になる確率が高いと診断されたからなんですが、彼の言い分としては、データは、例えばパーキンソン病にコーヒー、もしくはカフェインが効く、という傾向を表しているにもかかわらず、そうした知見が、医療現場において採用されないからなんです。
──その因果関係は証明されていない、となるわけですね。
はい。ところが、患者サイドから見ると、因果関係の特定よりも、当然ですが、自分が治るのかどうかのほうがはるかに優先度は高いわけですよね。
──うーむ。
この記事には面白い話が載っていまして、頭痛薬のアスピリンは、1899年に開発されたそうなんですが、それがなぜ効くのか、そのメカニズムの解明は、1960〜70年代になるまで謎だったというんです。
──てか、そんな昔からあるんですね。
で、そのメカニズムの研究が進んでいくことで、80年代後半になってわかってきたのは、「どうもアスピリンは心臓発作に効く」ということだったそうなんです。
──へえ。
そこには、面白い知識のサイクルがありまして、アスピリンが開発された当初は、「理由はよくわからんが、なんかよく効く」という一種の統計があっただけだったのが、そこから因果関係に関する研究が進んでいくと、今度は、実はそれが心臓発作に効くということが演繹的にわかったものの、それまでアスピリンがよもや心臓発作に効くなんて誰も思っていないので、およそ90年近くアスピリンと心臓発作の因果を指し示す統計はどこにも存在せぬままになっていた、ということが後でわかるということになります。
──簡単にいうと、どっちも重要だ、ってことですかね。
セルゲイ・ブリンは、そのことから、むしろいかにそこで失われたデータがいかに貴重なものだったか、を指摘し、少なくとも医療についていえば、各個人が摂取した薬とその時々の体調のデータをモニタリングし、膨大な数を集めることができれば、それまで誰も気づかなかった因果を見出すことができるとしています。
──なるほど。新型コロナの感染予防対策でも統計モデルの専門家が随分と世間を賑わせていましたが、そうした人と、ここまでの話でいう、伝統的なウイルスの専門家の双方が、とくに新型の未知のウイルスの感染を食い止めるという場合は重要になりそうです。
感染者を追跡したデータは、言ってみれば、ウイルスの振る舞いから、そのあり方を捉えようというものですよね。先ほど紹介した「ことばと世界──コンピューターはいかにそれを理解するのか」という記事では、それは「状況説明をつくりだす」ことだと説明していますが、こうした状況を通じた理解・説明と、ウイルスそのものの属性を明らかにしていくことで得られる理解・説明は、とくに感染を封じ込める、という目的に対して、おそらく双方が共に大事なんでしょうね。
──と、ここまで聞いてきて思うのは、ある種の「目的」が、結局はデータの有用性を決定しうるということなのかもしれない、ということだったりします。
中国のデジタルビジネスに関して、もはや第一人者ともなった藤井保文さんは『アフターデジタル 2 UXと自由』という本のなかで、「データ」というものにまつわる幻想を明らかにしていまして、藤井さんがアリババの国際UX担当の元役員に「データの売買という考えは、すべて幻想だよ」と喝破されるシーンが個人的に大好きなのですが、そこでその元役員が言うのは「データはソリューションにしないとお金にならない」ということなんです。
──ははあ。目的がないと意味がないということですね。
先の平安保険もセルゲイ・ブリンも、あるいは統計モデルによる感染追跡も、お金になるかどうかはおいておくにしても、それがソリューションになりうるからこそデータを重視しているわけですね。そして、そこでは、「どういうメカニズムでそれが起きるのかは、必ずしも人間が納得いく説明がなくともよい」と考えるわけです。というのも、ソリューションとしてのデータ利用というのは、そもそもが限定された目的のためだけのもので、そもそもが伝統的な科学のような普遍性を目指すわけでもないからなんだと思います。
──なるほど。
また面白いのは、これも藤井さんが指摘していることで、デジタルビジネスにおいては、属性データではなく行動データがより重視されることになると言うのですが、いささか飛躍はあるかもしれませんが、これまで見てきた話の流れで言いますと、属性データというのが、いわば、新型ウイルスと同じようにその人がどういう人なのかを説明していくものだとすれば、行動データは感染経路を追いながら、その振る舞いを通して、人のありように迫っていくものと考えることができるようにも思うんです。
──おお。
そう対比してみますと、平安保険の事例は、もしかすると、自分たちは顔面を属性データだと信じているけれど、彼らは、それを一種の「行動データ」だとみなしているのかもしれない、と思えたりもするんですね。といって、顔は、「今日のランチは何を食べよう」といったふうに自分の意志で変えられる「行動」ではないのでちょっと乱暴な言い方にはなるんですが、別の言い方をすると、ソリューションにした瞬間に、属性データも行動データへと変換される、といった理解がありうるのかもしれません。
──不思議な話ですね。
不思議な話なんですが、データに現れた状況説明を信じることと、因果関係を特定しない限り説明とはみなさないと信じることの間には、実際、非常に大きな隔たりがありまして、前者に対しては、もちろんソリューショニズムだという批判もあるとは思いますが、ある意味プラグマティックといえる思考でしょうし、後者はもう少し古典的な近代科学の考え方に立脚しているように思えます。
どちらがいいというものではないとは思うのですが、デジタルテクノロジーがもたらすビッグデータが、前者と極めて相性がいいというのは、間違いないような気がしますし、そうした考え方は、より加速するようにも思うんです。
──うーむ。データ、と一口に言っても難しいですね。
今回のGuidesのタイトルは「データの洪水」ですが、データというものがことさら難しくなっているのは、まさにこれまでに存在しなかったようなデータが、まさに洪水のように世に溢れ出ているからで、それはとりもなおさずデジタルテクノロジーが引き起こしたことですが、アリババの元役員が「データ売買は幻想」と言うのも、データそのものが溢れすぎて、希少価値をすでに失っているからということもあるのだろうと思います。
調査会社というものがこの世に存在して、それがビジネスとしてやれていたのは、データが偏在しておらず、労苦をかけなければそれを得ることができないからだったと思えば、それに倣って、データ売買で儲けようと考えても、それはそれで困難だろうと言うのは自明といえば、自明ですよね。
──それでも「デジタル庁」とかと合わせて、「データ戦略」といった言葉が勇ましく飛び交っていますが。
もちろん行政府っていうのは、おそらく今もだと思うのですが、最も巨大なデータ収集機関ではあって、それこそ政策決定に役立てるべく、国勢調査をはじめ、あらゆるデータの収集をしているわけで、そのデータがよりオープン化され、あるいはAPI化などすることで、公共政策に限らず、さまざまなサービスなどが生まれてくる下地にはなるとは思いますが、そのときのデータは、それ自体があくまでもインフラであって、それ自体をもっているからといって、特段価値を生むわけでもないですよね。
で、それは何も行政府に限った話ではなく、民間でもおそらくはそうで、銀行は多くの人の口座情報をもっていますが、それをAPIとして公開し、それを用いたサービス事業者が出てくることで、その価値は見出されるわけでして、黙って口座情報を寝かしておいても、それが価値を生むはずもないですよね。
──そりゃそうすね。
よく「データは21世紀の石油」だといわれますが、そのアナロジーがやっぱり案外正しいなと思うのは、石油があれだけの巨大産業になったのは、石油の使い道が、ばんばん開発されていったからで、石油の価値を産んだのはプラスチック産業だったり自動車産業だったりしたということを考えると、データというものについてもまったく同じものと考えられるからです。
ソリューションにしなければ価値を生まない、というのはデータに限らず、石油もそうだったはずで、その価値をつくりだすために石油産業は、自動車産業にテコ入れし、自動車中心の生活や都市空間を広めていったといわれていますから、ソリューションをどんどん生み出していかない限りは、データ活用ということばはただの空疎なお題目になってしまうのだろうと思います。ちなみに藤井さんは、あるサービスから得られたデータをUX改善のために再投資することが、「アフターデジタル」のビジネスの中核戦略だと書いています。
──なあるほど。なんかモヤっとはしているんですが、データというものをめぐる考え方を、大きく転換しないといけないのではないか、という気はしてきました。
おそらくデータというものはサービス開発なりのための基盤インフラということなんだと思うんですね。であればこそ、それ自体を価値化するのは困難なのではないかという気がしますし、それができるとしても、ごく限られた領域の、ごく限られたプレイヤーだけなのではないかと思います。
──天気とか、地図とか、株価とか、そういったあたりですかね。
ですね。ただ、そのデータも、それを用いたサービスが出てくることによって、さらに価値が出てくることになるわけですね。今回の〈Guides〉には、「インターネットでみつかる最良のコロナウイルス・データ・リソース」(The best coronavirus data resources on the internet)という記事があり、これは非常に有用な記事なのですが、データが、感染そのものに関するデータ、世界各国の行政府の動きを追ったデータ、ワクチン開発に関するデータ、人びとの反応に関するデータ、グローバル経済に関するデータ、貿易に関するデータ、旅行に関するデータ、といった分類によって区分けされています。当たり前に思えることを何度も言っているようで恐縮なのですが、読む側が、そのデータを何に有用化したいか、によって個々のデータの意義や価値は当然変わってきますよね。
──そりゃそうですね。
とはいえ、これは非常に有用な一覧ですので、一応載せておきましょうか。
──いいですね。
- 感染追跡|Financial Times
- 感染死亡者|Financial Times
- 世界各国のコロナ対応|Our World in Data
- 政府対応の厳格さ|Our World in Data
- ワクチン開発|Milken Insititue
- 市民の行動変容|Imperial College London/YouGov
- グローバル経済への影響|OECD
- 経済への影響|Atlantic Council
- 経済への影響|BBC
- 経済復興トラッカー|Financial Times
- 国際貿易|International Trade Centre
- 米国の経済動向|Opportunity Insights
- 人の移動|Apple
- 人の移動|Google
──にしても、面白い、いいデータがあるもんですね。
ほんとですね。特に目的もなく漫然と見ているだけでも、「へえ」と思うことはたくさんあって、データというのは、どんなものであれ、それがきちんと解析されると、あるやり方で世界のある姿を見せてくれるものですよね。ただ、そこからどういったインサイトを取り出すことができるのかとなると、やはりこれは非常に難しいもので、冒頭にお話した例のように、なんらかの偏向に左右されることなく、そこから意味=インサイトを抽出するのは難しいものなのだと思います。
──そうですよね。
自分はマイケル・ルイスの『マネー・ボール』が大好きなのですが、ビリー・ビーンという人がデータを有用化できるようになるためには、野球というゲームの見方をかなり大胆に再考しなくてはならなかったわけで、彼は「野球とは点を多く取った方が勝つゲームである」という定義を、「野球はアウトにならない選手が多いほど負けないゲームである」と読み換えることで、打率・本塁打数・打点といった「得点」に関わるデータが優先させる状況を翻して、出塁率こそが重要と見切るわけです。出塁率というデータはずっとあったにもかかわらず、誰もその価値を見出せていなかったということを表しているわけですが、このインサイトこそが、ビリー・ビーンのイノベーションであって、データを使ったことでは決してないんですね。
──ああ、なるほど。イノベーションはソリューションの鮮やかさに宿るのではなくて、インサイトの鮮やかさに宿る、と以前にも言っていましたよね。『マネー・ボール』はまさにそれですね。
そうなんです。ただ、そのインサイトを導きだすためにはデータは必要なんですよ。それがあるからこそインサイトが生まれるし、そのインサイトがあればこそ、また新しいデータの必要性も見出されるわけですから、データは、当たり前ですが、とても大事なんです。
──安倍政権のコロナ対策は、そういう意味では、データをまったく説得的に使えていなかったですよね。
それは政権だけでなく、ビジネスセクターを含めて、同様に思えます。データのないところでのインサイトはただの思いつきですし、自分の考えをただ補強するためにだけデータを使うのも、あまり意味ないですよね。新しいアイデアを生み出すためのジャンプボードとしていかにそれを有用化するか、という視点がない「データ戦略」は、ただの現状追認になってしまいますからね。
──未来のために、データをどう使うかってことですね。
データはすべて「過去に起きた事柄」に関わるものですから、それでもって未来をつくるためには、それなりに高度な変換が必要になるように思います。
若林恵(わかばやし・けい) 1971年生まれ。『WIRED』日本版編集長(2012〜17年)を務めたのち、2018年、黒鳥社を設立。NY在住のジャーナリスト 佐久間裕美子とともホストを務めるポッドキャスト「こんにちは未来」のエピソードをまとめた書籍が発売中。
👤 アカウントページで登録メールアドレスを変更いただいても、ニュースレターのお届け先は変更されません。メールアドレス変更の際にはアカウントページで設定後、こちらのアドレスまでご連絡ください。
🎧 Podcastの最新エピソードでは、株式会社Selanの創設者&CEOを務める樋口亜希さんをお迎えし、「グローバルな子どもの教育」について語っています。Spotify|Apple
📨 Twitter、Facebookでも最新ニュースをお届け。
👇 のボタンから、このニュースレターをTwitter、Facebookでシェアできます。ニュースレターの転送もご自由に(転送された方へ! 登録はこちらからどうぞ)。