クラスタ基準のメモ

http://www.bi.a.u-tokyo.ac.jp/~kadota/r.html

k-means のところに cluster index の使い方が載ってる。
これはありがたい。

 k-means法などによる大量サンプルのクラスタリングの際、最も悩むのがクラスタの数をいくつにするかということです。他の分野はわかりませんが、マーケティングのデータの場合、教科書的な“自然なクラスタ”なんて存在しないので、いくら散布図を眺めてもヒントは出てきません。
 そこで、どのクラスタリングが最も上手に対象を分類しているかを数字で示そうというのがクラスタ基準ですが、これはこれでいくつもの基準が提案されています。の cclust パッケージで利用できるものだけでも、calinski、cindex、db、hartigan、ratkowsky、scott、marriot、ball、trcovw、tracew、friedman、rubin、ssi、likelihood、xuindex、っと山ほどあります。
 個人的には calinski*1 をよく使います。

*1:SASには pseudo F という名前で搭載されているようです