AI

美味しいお店の抽出 〜続編その1〜

以前、当ブログでは「食べログ」に登録されたお店を対象にレビュー文の解析をした。自然言語処理により投稿されたレビュー文がポジティブなのかネガティブなのか判定し、スコアリングすることでお店のオススメ度をランキング化した。

美味しいお店の抽出緊急事態宣言が続いて最近外食してないなぁと思うことが多い。 外食したいと思うけど、特筆して店に詳しいわけでもない。 今回は美味し...

今回は前回に引き続き、レビュー文を自然言語処理により解析しそのお店のオススメ度のランキング精度の向上を目指そうと思う。
まず始めに、前回の手法とランキング化までの流れを説明する。

1. 前回の手法の特徴

  1. 店舗名及び、評価スコア(星スコア)や、所在地、レビュー文、カテゴリー収集は
    スクレイピングで実装した。
  2. 店舗別のレビュー文に対する自然言語処理によるスコア付けの手法は3種類で実装した。東工大が公開する単語感情極性対応表を辞書として用い、それぞれの手法でレビュー毎にスコアリングしその結果からランキング付けした。
    詳しいスコアリングの方法及び、詳細はこちら。「美味しいお店の抽出」

    • Bag-of-Words
    • Word2Vec
    • Doc2Vec

2. 今回の手法

前回は単語感情極性辞書を用いて、辞書内の用語とマッチした場合に辞書に紐づけられた極性スコアまたは、分散表現の値のコサイン類似度でスコアリングしており、ルールベース主体の手法であった。
そこで今回はGoogleのCloud Natural LanguageAPIの感情分析を用いて、レビュー文が肯定的または否定的かのネガポジ判定の結果でスコアリングする。
Cloud Natural Languageの感情分析で得られる値は、入力テキスト全体のスコア(スコアが正で大きくなるほどポジティブで、負の値になるほどネガティブと判断、±0の場合はニュートラル)と、さまざまな感情が入り混じっている状態のテキストを判定するためのネガティブスコアの2種類ある。
今回はレビュー文に対してこの2種類のスコアを出力し分析する。

3. 結果と分析

まず始めにレビュー文をCloud Natural Language APIでスコアリングした結果の例を示す。スコアは-1〜1までの範囲で出力されるため「0.8」や「0.7」はかなりポジティブなレビュー文と判定されたことになる。

次に店舗別にどういったレビュー文の場合、スコアが高くなるのか見ていこう。
スコアの高いレビュー文の例をいくつか紹介する。

レビュー文スコア0.8

表参道でずっと気になっていた太月さんようやくの初訪問となりました。カウンターと個室を構える店内は静かすぎず騒がしすぎず居心地良しです。大将と女将さんは常連さんにも初めての方にも分け隔てなく接しておられいい雰囲気です。今回頂いたのは1万5千円のコース・昆布出汁・蕗の薹の天ぷら、長野県産・うすい豆と鴨肉の饅頭、白味噌仕立て・削り立ての鰹節、枕崎産の2年もの・八寸、切り干し大根胡桃和え、姫サザエ 蛍烏賊沖漬け、鱈の白子と雲子、蛸の桜煮・一番出汁・お椀、帆立しんじょうの桜包み・真鯛と細魚のお造り・アイナメの焼物、出汁巻き卵添え・若竹煮・カサゴの唐揚げ、胡麻ソース・和ぜりと仙台牛のしゃぶしゃぶ・鰻のばらチラシ・抹茶プリン、大和芋の苺大福、桜餅最中アイス品数たっぷりでお腹いっぱいです笑出汁が美味しかったのが特に印象に残ってます。春の到来を感じさせる筍や蕗の薹など旬の食材がしっかりと入っているのは嬉しい限り。時期を変えて再訪したいお店です。
出典:出典元情報「日本料理 太月」

レビュー文スコア0.8

長谷川在佑大将がおもてなしする世界ベストレストランやアジアベストレストランランキング常連の創作和食店、傳に訪問です♪3回目ですが、神宮前に移転してからは初めて☆超予約困難の和風創作料理店ミシュラン二つ☆☆食べログアワードシルバー☆☆そう、ここはかつて大好きだったフレンチの名店ル・ロゴアがあった場所世界ベストレストランだからといって決して敷居が高い雰囲気ではありません大将のひとひねりしたセンスが光るどこか温かみのあるお料理が人気で・フォアグラ最中・創作フライドチキンの傳タッキー・ニコニコニンジンの傳サラダのトリオは定番のスペシャリテ春野菜と一緒にいただくイカもとても美味しいし炊き込み御飯は意表をついた嬉しい春の茸ごはん広いカウンターのセンターには長谷川シェフまわりを固める元気な若いアシスタントそして、客席側には女将さんをはじめ、スタッフのみなさまのあたたかくて素晴らしいおもてなしチーム長谷川としての魅力がたまりません他のお客さんからの笑顔や瞳の輝きからも長谷川さんのお料理が、そして傳というお店全体が好きで好きでたまらないという愛に包まれているのが容易に分かりますコロナ禍の最中、なにかと恐怖をあおったりギスギスしたりする報道が溢れる中とってもあたたかなぬくもりを感じられる素晴らしい時間でしたごちそうさまでした(^^♪
出典:出典元情報「傳」

レビュー文スコア0.8

特製らぁめん先日のお昼は 山と樹 さんへ初訪問八王子の らーめん楓 にて10年修行された店主の冨山裕介さんが、2017年1月24日にオープンされたお店店名はらーめん楓創業者であり山と樹のオーナーでもある井ノ川晴樹さんと店主の名前を1字ずつ合わせたものだとか券売機に煮干しがあり一瞬迷いましたが、初志貫徹初訪問につき左上の特製らぁめんをぽちっと程なく着丼しまずはスープを一口おぉ、何とも優しい穏やかなお味鶏ガラをベースに昆布、鰹節、煮干しなどの乾物で奥行きを加えた出汁に醤油ダレが合わさった淡麗醤油ではありますが、醤油も主張が控えめで円やかな広がり鶏油もあくまで適度なコクの演出に留まっている結果、あっさりとしていてもバランス良く深みがあり、だからこそ余韻がじんわり残るノスタルジックな味わいになるのですね美味しいなぁこれは毎日でもいけるし飲めてしまう手揉みされた自家製中太麺はコシも感じられモチモチでプリッとしたタイプ、小麦の風味、甘みが存分に味わえこちらも大好き北海道産の春よ恋に全粒粉を配合した自家製麺だそう食感、喉越し、スープの纏い具合もいい感じトッピングはチャーシュー、味玉、メンマ、青葱、海苔チャーシューは蕩けるような柔らかさの煮込まれた肩ロースと、オーブンで蒸し焼きされたという表面の炙られたほろっほろなバラの2種何れも肉の旨味が溢れ、食感お味に喜び溢れる美味しさゼリー状な味玉も適度なお味で好きしゃくしゃく食感のメンマも程よいお味薬味、海苔も適量でバランスを崩さない名脇役これは塩も煮干しも絶対美味しいよなぁ、、、あぁ、気になるなぁ、、、普段の行動範囲から外れているためあまり来られない場所ではありますが、また伺いたいお店の1つになりました美味しゅうございましたまた伺います、ご馳走様でした
出典:出典元情報「らぁめん 山と樹」

これらのレビュー文はお店の料理が単に美味しい・不味い等の一言に限らずどの食材が美味しいのか具体的に記述されていたり、料理以外のお店の雰囲気、お店のスタッフ・料理人などについても言及しポジティブな記載が多い。
その他の高スコアなポジティブと判定されたレビュー文も同様の文体で納得できるものが多い印象だった。

4. おわりに

今回はGoogle Cloud Natural Language APIの感情分析を用いて、「食べログ」のレビュー文のネガポジ判定を行った。前回は辞書を用いたルールベース主体であったため、ワードの拾い逃しも散見できたの対して、Google Cloud Natural Language APIを用いた方がより正確性が増したように感じる。
今後は、「食べログ」内の評価スコア(星スコア)と、Google Cloud Natural Language APIの感情分析で出力されたスコアとの相関や、料理に関する内容箇所のみに対して感情分析するなど細かい分析もしたいと思う。

T.A
新卒1年目で働いてます。 まだわからないことも沢山ありますが頑張りたいと思います。