データサイエンス

美味しいお店の抽出 〜続編その2〜

前回の「美味しいお店の抽出 〜続編その1〜」に続き、「食べログ」のレビュー文に対する分析を行う。

美味しいお店の抽出 〜続編その1〜以前、当ブログでは「食べログ」に登録されたお店を対象にレビュー文の解析をした。自然言語処理により投稿されたレビュー文がポジティブなのかネ...

前回は、店舗ごとに投稿されたレビュー文に対してGoogle Cloud Natural Language APIの感情分析によりネガポジ判定を行い、スコアが高くなるレビューにどのような特徴があるのか調査した。
今回はGoogle Cloud Natural Language APIの感情分析で出力されたスコアと、「食べログ」のレビュー文と共に投稿された星評価のスコアの関係性を分析しようと思う。

1. 目的

飲食店などのクチコミはサクラがいるのではないかと言われることが多い。サクラが高評価のクチコミを投稿し評価スコアの平均を上げる方法である。ちなみに、サクラ投稿の場合はレビュー文が単調短文またはレビュー文無しの傾向が高いといった情報を耳にしたことがあるためその過程の元分析する。前回、Google Cloud Natural Language APIの感情分析で出力されたスコアは正に値が大きくなるほどよりポジティブ、負に大きくなるほどネガティブと判断し、高スコアのレビューは「長文でどの食材が美味しいのか具体的に記述されていたり、料理以外のお店の雰囲気、お店のスタッフ・料理人などについても言及しポジティブな記載が多い傾向にある」ことを前回確認した。そのため、サクラの単調短文なレビューと比較するとスコアに差が生まれるのではという考えで至った。
そこで、感情分析スコアと「食べログ」のクチコミに投稿された星評価のスコアとの相関を比較し、感情分析スコアが高い場合は本当に星評価スコアの値も大きくなるのか?といった個人的疑問を調査する。

2. 相関の調査

Google Cloud Natural Language APIの感情分析スコアと、「食べログ」の星評価スコアの相関を可視化した。
グラフの縦軸が「星評価スコア」、横軸が「感情分析スコア」を表す。
なるほど!!1つずつ見ていくことにする。

  • まず縦軸の「星評価スコア」では星スコアが約3.8から始まり、スコアが大きくなるほど該当店舗数は減少傾向にある。ちなみに、「食べログ」の星スコアは最大で「5」である。各スコアの該当店舗数の傾向としては納得できる流れだが、それにしても星スコアの下限値が3.8以上とはかなり高いとに個人的に感じた。(笑)
  • 次に、横軸の「感情分析スコア」を見ると、スコア0.3辺りが中央値で最も該当店舗数が多く、左右両端に近づくにつれて少ない。こっちは正規分布に近いのかな?「感情分析スコア」は、-1〜1の範囲で出力されるため、スコア0.3以上というとそれなりにポジティブと判定された店舗がかなり多いということになる。こちらはそこまで違和感はなさそうな結果だった。
  • 次に肝心の相関を確認すると、相関値「-0.009」と言う結果!!
    かなり0に近いがまさかのマイナス相関だった…。
    つまり、「星評価スコア」または、「感情分析スコア」のどちらかの値が下がれば片方の値が大きくなるためこれはサクラ投稿の多い店舗ありそうな予感。。。
    特に、「感情分析スコア」がマイナスでネガティブな内容と判断された店舗において「星評価スコア」が3.8〜4.0と高スコアとなっている場合もあり怪しそうな予感…(笑)

3. おわりに

今回はGoogle Cloud Natural Language APIの感情分析スコアと、「食べログ」の星評価スコアの傾向・相関を調査した。
その結果、「う~ん…なんかサクラ投稿の多い店舗もあるのかな??」といった結果が見受けられた。ここは、店舗ごとにもっと多くのレビューを確認しないとわからないため、引き続き調査しようと思う。

T.A
新卒1年目で働いてます。 まだわからないことも沢山ありますが頑張りたいと思います。