以下の論文を参考に時系列クラスタリングについて説明していきます。
Time-series clustering – A decade review
時系列クラスタリング手法はモデルベース手法、特徴ベース手法、形状ベース手法、そしてそれらの組み合わせの手法の大きく4つに分けられます。
一般的な手法は、特徴抽出、距離測定、クラスタリングアルゴリズムから構成されています。そのため、ここではそれぞれについてどのような手法があるのかを見ていきます。
主な特徴抽出手法としては離散フーリエ変換や離散ウェーブレット変換などがあります。また、特徴抽出を行わずにローデータをそのまま使うこともできます。
距離測定手法としては、ユークリッド距離やDynamic Time Warping(DTW)などがあります。DTWでは一対多でマッチングを行い、最短となるパスを見つけます。そのため、長さや周期の異なる時系列の類似度を求めることができます。
画像引用元
クラスタリングアルゴリズムとして最も一般的ものはk-meansです。k-meansでは、各データをランダムにk個のグループに割り振り、各点と各グループの重心との距離を計算し、最も距離が近いグループに再割り当てする操作を収束するまで繰り返します。