雑談

Streamlitで次買うスコッチを選ぶためのアプリを作ってみた

突然ですが、皆さんは自宅でお酒を飲みますか?

私自身、家飲みだと主にビールとウイスキーを飲むことが多いです。ウイスキーに関しては普段は角をソーダ割で飲んでいるのですが、たまにスコッチもソーダ割やロックでいっちょ前に嗜んでいたりします。スコッチの中ではとりわけタリスカーを好んでいます。(最初は箱のデザインに惚れて購入したのですが、飲んでいる内に独特な潮感と胡椒のような風味に惚れてますます好きになっていった次第です。)

今まで、購入してきたタリスカーの箱。パッケージが鬼カッコいい。

2023年11月現在、自宅にあるタリスカー(DARK STORM)が残りわずかとなっており、そろそろ新しいボトルを買いたいなと思っていました。次は今まで飲んだことのない毛色の違う銘柄にチャレンジしようと考えているのですが、何が良いかわからない…

「そうだ!データから次買うスコッチを選ぼう!」

若干、職業病のような気がしますが、そんな思いに至ったので、Streamlitで次買うスコッチを選ぶための俺得アプリをつくってみました。

※Streamlit Community Cloudで公開しています。
https://whisky-3rx3c8ju43m5xofhpbrapm.streamlit.app/

利用したデータ

以下のページからスコッチデータをダウンロードして使わせていただきましたm(__)m

86種類のスコッチが、Sweetness(甘み), Smoky(スモーキー), Fruity(フルーティー)など12の異なるテイストで0~4でスコア付けされています。

基本的にウイスキーは同じ銘柄でも熟成年数や製造方法によって味は結構変わってきますが、本データには商品ごとの情報は入っていないようです。そのため、今回は「この銘柄はだいたいこんな味」といったニュアンスでデータを扱うことにします。

分析手法

12個の変数をもつデータの特徴をそのまま理解するのは困難です。そこで今回は主成分分析を用いて12次元のデータを2次元に圧縮し、その結果をプロットすることで各スコッチ間のおおよその類似度を把握しようと思います。

アプリの概要

上部に1枚表とテイストごとの分布をプロットしています。例えばSmokyとSpicyのグラフから、タリスカーは独特なスコッチであることが垣間見えます。
※タリスカーのSmokyとSpicy(スパイシー)のスコアはともに3

中部から下部にかけて、主成分分析の結果として、上から順に寄与率, 固有ベクトル, 主成分得点の情報を表示しています。

寄与率

次元を圧縮するとその分、データがもつ情報量が削減されます。次元圧縮した際、データ全体の何パーセントを説明できているかを表す数値が寄与率です。上図をみてみると第1主成分が約0.3、第2主成分が約0.2となっているため、第2主成分まででデータ全体の約50パーセントを説明できていることがわかります。つまり、2次元にデータを圧縮しても半分くらいの情報量は残っているということになります。

固有ベクトル

それぞれのテイストが各主成分に及ぼす影響度合いは、固有ベクトルの要素(主成分係数)の大小によって把握することができます。

上図は横軸に第1主成分の主成分係数、縦軸に第2主成分の主成分係数をとっています。横軸をみてみるとMedicinal(薬っぽさ≒ヨード香), Smoky, Body(重たさ)が右側、Floral(花っぽさ), Honey(ハチミツっぽさ), Sweetnessが左側に寄っています。このことから第1主成分は華やかな印象のウイスキーほど小さく、癖が強いウイスキーほど大きな値となるような特徴があると言えそうです。縦軸をみてみるとWine(ワインっぽさ), Body, Honeyが上側、Froral, Medicinal, Tobacco(タバコっぽさ)が下側に寄っています。このことから第2主成分はリッチで余韻を感じやすいウイスキーほど値が大きく、ドライな印象を受けるウイスキーほど小さくなうような特徴があると言えそうです。

主成分得点

元データを各主成分に変換した値が主成分得点です。各スコッチのテイスト情報から第1主成分得点と第2主成分得点を算出することで、各スコッチの特徴を2次元のグラフで表現することができます。

赤線で囲っている部分がタリスカーを指し示しています。多くのスコッチが集まっている箇所から少し離れたところにポツンとあるため、タリスカーがユニークなスコッチであることがわかります。さらに右側に集まっている3つのスコッチはラフロイグ, アードベッグ, ラガヴーリンです。飲んだことがある方はわかると思いますが、これらのスコッチはピート・ヨード香をガツンと感じることができる癖が強めのスコッチです。上側にある3つのスコッチはマッカラン, アベラワー, グレンドロナックです。これらのスコッチも多くのスコッチが集まっている箇所から少し離れたところにあるため、ユニークなスコッチであると言えそうです。今回はこのあたりのスコッチにチャレンジしたいと思います!

さいごに

日本酒やワインなど、他のお酒でやってみても面白い知見が得られそうですね。また、今回使わせていただいたデータには各蒸留所の緯度経度情報も入っています。この情報を使うことで地理ごとのテイストの違いなんかも分かって、よりスコッチの知見を深められそうです。

追記

結局、タリスカー(PORT RUIGHE)を買っちゃいました。飲んだことのないラインナップなのでどんな風味なのか楽しみです。(アプリ作った意味)

mochizuki
データサイエンティスト。筋トレ、温泉、時々スキー。