●超文系人間のための 統計学トレーニング 「数字を読む力」が身につく25問 (著:斎藤 広達)より
▼ワインの価格は「たった4つ」の要素で決まる!?
答えは「できる」です。
というより、実はこの問い自体、実際にあった話をモデルにしています。
『Journal of Wine Economics, Volume7』(2012年) に発表されたレポートが話題を呼びました。
このレポートによると、ワインの価格は次のような数式で表せるというのです。
・ボルドーワインの価格(ロンドンオークションでの価格)
=0・0238×年数 +0・616×ぶどう生育期(4月〜9月) の平均気温 −0・00386×8月の降雨量 +0・001173×ぶどう生育前期( 10 月〜3月) の降雨量
意味するところは、経過年数(ビンテージ)、生育期の平均気温、収穫期の降雨量、生育前期の降雨量の4つのファクターでワインの価格が決まるということ。
つまり、あんなに複雑だと思われていたワインの価格が、たった4つの変数で決まってしまう、ということが明らかになったのです。
このモデルの「決定係数」は0・828、つまり約 83%の確率で当てることができるということ。
数字の高さも評判を呼びました。
まず、「0・0238×年数」というのは、「ワインを1年寝かすと2・4%価格が上がる」という意味になります。
ワインは寝かせれば寝かせるほど価格が上昇するというのは常識でしたが、その上昇率が「1年で2・4%」だということが割り出された
「0・616×ぶどう生育期(4月〜9月) の平均気温」は、ぶどうの成長期に当たる4月から9月の平均気温が価格に影響するということで、具体的には0・1℃上がると6・2%価格が上がることになります。
ぶどうの生育前期である 10 月から3月に関しては、むしろ降雨はプラスに働きます。「0・001173×ぶどう生育前期( 10 月〜3月) の降雨量」とあるように、降雨量が1ミリ増えると、0・1%価格が上がるとされています。
年数や気温といった独立した数値のことを「独立変数」、独立変数によって変化する値のことを「従属変数」と呼びます。
ここではワイン価格が従属変数となります。
影響を与える側が独立変数、影響される側が従属変数、と考えれ、一つの要因だけではなく複数の要因からある結果を導き出す手法のことを「多変量解析」といいます。
-------------
一つの要因ともう一つの要因の相関を見るための手法である「回帰式」および「回帰分析」についてご説明しました。
それが、「y =ax+b」といった一次関数で表すことができるのに対し、要因が複数になる多変量解析は、 y = ax₁ +bx₂ +cx₃ +dx₄ +ex₅…… という式で表されることになります。
この際に用いられる回帰分析のことを「重回帰分析」と呼びます。
実は、ここ数年来のバズワードともいうべき「ビッグデータ分析」や、「データサイエンティスト」がやっていることは、この「多変量解析」をベースにしていることが多いのです。
デジタル化が進んだことで、多種多様なデータが手に入るようになりました。
中でも大きいのがモバイルで、個人の閲覧データや購買データだけでなく、いまや行動データすら得られるようになっています。
こうしたデータを使うことで、さまざまな分析を行うことができるようになりました。
------------
店舗やECでの売上予測、新製品の売上予測、最適在庫量の計算、値引きによる販売増予測などが、今までにない精度で可能になりつつあります。
その基本となるのが、「多変量解析」なのです。
たとえば、あるスーパーの売上高を予測するにあたり、その要因となるのが主に「近隣の交通量」「広告投下量」「特売日の数」「降雨量」で決まるとしたら、 y(スーパーの売上高) =a×近隣の交通量+b×広告投下量+c×特売日の数−d×降雨量 などといった式を組むことができます。
問題になるのは、それぞれの「係数」(式のa〜d) です。
結果に大きな影響を与えるものほど係数も大きくなり、影響が少ないものは小さくなります。
広告投下量を1増やすことの効果と、特売日を1日増やすことの効果はどのくらい差があるのかといったデータを参照しながら、係数を決めていきます。
多変量解析の専用ソフトを使いながら、データサイエンティストは係数の精緻化を繰り返します。
大変な時間と手間がかかります。 世の中で大いにもてはやされているデータサイエンティストですが、実際の仕事はこのように地味なものだというのが現実です。
※※※※※
【コメント】
「ビッグデータ分析」「データサイエンティスト」
よく聞きますが、中身はよく分かっていませんでした。
いろんな情報を収集するのは、まあ分かる。
昔より大量のデータが集まってくるのも分かる。
可能になったのは、スマホの普及が要因かと。
問題は、集めたデータをどうまとめるのか。
文系の人間には分からない部分・・・・・・理解出来なかった部分は、「数式にあらわす」ということです。
文系の人間だってエクセルを使って、大量のデータをピボットテーブルで分析するなんてことは当たり前になりました。
そこから一歩踏み出し、数式を意識したいと思います。