データサイエンス

ポアソン分布でサッカーの得点数まで予想する – サッカーパワーインデックス(SPI)とは?

サッカーの試合結果を予想する試み

野球における「マネーボール理論」に始まり、今やあらゆるスポーツに統計分析が用いられています。サッカーの世界でも、様々な分析モデルが作られ試合結果の予想に用いられていますが、その中で代表的なものに「サッカーパワーインデックス・マッチ・プレディクター」(以下SPI)という指標をがあります。アメリカのスポーツ専門チャンネルであるESPNと、著名なデータサイエンティストであるネイト・シルバーが開発したプロサッカーチームの評価システムです。

SPIは2006年以降のナショナルチームによる代表戦から、クラブチームのゲームデータまでを分析し、独自のランキングや試合予想を公表しています。ESPNによれば試合の勝敗と各チームの得失点、出場選手、試合のロケーション等を包括的に分析しているそうです。また、SPIでは直近の試合結果を重視し、さらにその試合の重要性を考慮します。例えばワールドカップの試合結果は親善試合の結果よりも重視される、という事ですね。

直近でESPNが公表しているナショナルチームのSPIランキングは以下の通り。FIFAランキングとはまた違った結果となっており、興味深いです。

Ranking table※2014年9月17日時点

※Off Rating:オフェンス評価

※Def Rating:ディフェンス評価

ちなみにSPIの生みの親であるネイト・シルバーは、FIFAランキングとその仕組みを「あまり好きではない」と語っています。

SPI以外にも、チェスの試合結果を予想するために開発されたモデルを応用してサッカーチームを評価するElo ratingsや、直接チームを評価せず、個々のプレイヤーを評価する事でチームをランク付けするドイツのTransfermarktなど、いくつかの評価モデルが知られています。(ちなみにSPIはElo ratingsをベースにしており、チームと選手の両方を評価しています。)

勝敗だけでなく、両チームの得点を予想する

各チームのランク付けや、それに基づくゲームの勝敗のみを予想するモデルは他にも存在しますが、SPIの特徴はその試合結果を両チームの得点まで予想する点にあります。

ネイト・シルバー氏が自身のサイトfive thirty eight(538)で、前回のワールドカップ決勝戦での予想をもとに、SPIの統計的な試みについて解説した興味記事を公表しています。

2014年FIFAワールドカップの決勝、ドイツ対アルゼンチンの試合について、SPIを用いた事前予測は63%の確率でドイツがアルゼンチンに勝利すると予想していました。そして得点についてはドイツが1.7点、アルゼンチンが1.2点取るというものでした。結果は皆さんご存知の通り、ドイツが延長線の末にアルゼンチンを下し、通算4回目となる優勝を果たしました。勝敗という意味では、SPIの予想は的中したと言えます。一方で、得点の予想は当たったとは言えません。

しかし、ここで疑問が浮かびます。それは、例えば実際の試合でドイツが「1.7点」取る事は不可能ということです。

試合の得点結果をポアソン分布に当てはめて予測する

この記事によれば、彼らは得点予想が『ポアソン分布』に従うと仮定し、実際の試合のように両チームの得点が任意の整数で終わる確率を予想する、という方法をとっています。

【参考】ポアソン分布

簡単に言ってしまうと、ポアソン分布とは特定の時間や場所(エリア)、距離の範囲で、ある事象が発生する確率分布のことです。また、それが・・・

  • 非常に起こる確率が低いく、
  • 試行回数が多く、
  • それぞれが独立している、

事象に対する分布となります。発生頻度が多い事象の場合、一般的には正規分布に近くなるため、ポアソン分布を当てはめる事ができません。

サッカーでは多くの場合、1試合に1,2点しか得点が入りませんが、一方でシュートチャンスは多く、実際に得点される何倍ものシュートが“試行”されます。また、例えば野球では、タイムリーヒットを打ったバッターが塁に溜まり、さらなる得点チャンスを作り出すため、得点という事象が独立しているとは言えません。サッカーの得点は野球とは違い、得点の度にゲームがリセットされるため独立した事象であると言えます。つまり、サッカーの得点をポアソン分布に当てはめても大きな間違いはないと考えられるのです。

サッカーの試合にポアソン分布を当てはめる事の問題点

しかしながら、ポアソン分布をサッカーに当てはめる事にはひとつ問題があります。それはポアソン分布が「特定の時間の範囲で」事象が発生する確率であるという事です。サッカーの試合は90分間ですが、その時間内に勝敗(や得点数)が決まるとは限らないのです。もちろん現在のJリーグのように延長戦が無く90分間で引き分けを含めた結果が確定する試合もあり、リーグや大会によって延長戦の有無やルールは異なります。ワールドカップの決勝トーナメントは、90分間で勝敗がつかない場合30分の延長線を行い、それでも決着が付かなければPK戦となります。この問題を解決するために、シルバー氏は2005年以降の主要な国際大会の延長戦のデータを集め、それをもとに追加のポアソン回帰を行ったと語っています。シルバー氏はこれを”nesting a Poisson distribution within another Poisson distribution(ポアソン分布の中にもう一つのポアソン分布を入れ子にする)”と表現しています。

その結果、SPIが予想したワールドカップ決勝の得点確率が以下のヒートマップです。

最も確率が高いと予想されたのが11.8%で2対1ドイツの勝利、ついで10%で1対0ドイツの勝利ですね。またヒートマップの対角線上、つまり同点でPK戦にもつれ込む可能性は、1対0や2対1など90分+延長戦で決着が着くスコアよりも低く予想されています。この点ではSPIが高い精度で試合を予想していた事がわかります。

ポアソン分布は極端に偏った試合結果を過小評価する

ポアソン分布がサッカーの試合をどのように捉えているかについて、シルバー氏は以下のように説明しています。

  • ドイツがアルゼンチンに対して、90分で平均1.7ゴール取ると仮定しましょう。それは、毎分2%の確率で得点が期待できるということです。
  • よって、試合の毎分を表す90個のルーレットを用意します。それらには50個のマスがあり、そのうち1つがゴールです。一台のマシンで起きた事象が、他のマシンに影響を与えることはなく、独立です。つまり、ゴールのマスに入ったボールの数は、ドイツの得点の頻度を表しています。
  • この実験を何度も繰り返すと、最も一般的な結果は1つか2つのゴールと いう結果になるでしょう。しかし、他の回では0または4個や6個のゴールが入っているかもしれません。これらの結果の相対頻度が、ドイツのゴールのポアソン分布を表しているのです。

これは、ポアソン分布が「極端に偏った試合結果を過小評価する」可能性を示唆しています。例えば、準決勝でドイツが7対1でブラジルを下した試合 – この結果はSPIのアルゴリズムでは、まず起こりえないような限りなく低い確率として予想されたはずです。

そして現実の世界では、このような極端な結果や可能性が低いと思われる事が往々にして起こるものです。だからスポーツは面白い!

—–

このような分析の裏話が聞けるのは大変興味深いですよね。

今回はポアソン分布について記事を取り上げましたが、five thirty eight(538)にはSPIやサッカーに関する多くの記事が掲載されていますので、興味のある方は是非ご覧になってください。