2008-11-16から1日間の記事一覧

3.4 デンドログラムを描く

R

クラスタリングが終わっていれば、樹形図を描くのは至極簡単。 plot(blog.hc, main="ブログのクラスタのデンドログラム", cex=0.75, hang=-1) サンプルサイズが99もあるのでちょっと見にくいですね。 普通、階層型クラスタリングを使うのはサンプルサイズが5…

3.3 階層的クラスタリング

R

「3.3.2 フィード中の単語を数える」は省略。 tmパッケージあたりを使えば良さそうですが。 Rを使ったテキストマイニングについていえば、近々本も出版されるみたいです。Rによるテキストマイニング入門作者: 石田基広出版社/メーカー: 森北出版発売日: 2008…

2.8 MovieLensのデータセットを使う

R

MovieLens Data Sets | GroupLens Researchから「100,000 Data Set (.zip)」をダウンロード。 解凍したら、Rのワーキング・ディレクトリに「u.data」「u.item」を置く。 とりあえずファイル全体を読み込んでから必要な列だけを取り出すことにする。 u.item.l…

2.7.2 推薦を行う

R

事前に用意した映画の類似度行列に基づいて、任意のユーザーに次に見るべき映画を推薦する。 ここで評価と類似度を乗算したものを類似度の合計で割るという計算をしているのだけど、これも納得がいかないので算術平均を使うことにする。 前述したように評者…

2.7.1 アイテム間の類似度のデータセットを作る

R

この項では先に作ったtopMatches関数を使って作品ごとに類似性スコア高いほかの作品のリストを作っている。 だけど、R言語では作品ごとに処理するよりも行列として処理したほうが簡単なので、topMatches関数は使わずに類似性スコアの行列を直接作ってみる。 …

『集合知プログラミング』をR言語で書く

集合知プログラミング作者: Toby Segaran,當山仁健,鴨澤眞夫出版社/メーカー: オライリージャパン発売日: 2008/07/25メディア: 大型本購入: 91人 クリック: 2,220回この商品を含むブログ (277件) を見る「2.6 del.icio.usのリンクを推薦するシステムを作る」…