2008-11-01から1ヶ月間の記事一覧

3.4 デンドログラムを描く

R

クラスタリングが終わっていれば、樹形図を描くのは至極簡単。 plot(blog.hc, main="ブログのクラスタのデンドログラム", cex=0.75, hang=-1) サンプルサイズが99もあるのでちょっと見にくいですね。 普通、階層型クラスタリングを使うのはサンプルサイズが5…

3.3 階層的クラスタリング

R

「3.3.2 フィード中の単語を数える」は省略。 tmパッケージあたりを使えば良さそうですが。 Rを使ったテキストマイニングについていえば、近々本も出版されるみたいです。Rによるテキストマイニング入門作者: 石田基広出版社/メーカー: 森北出版発売日: 2008…

2.8 MovieLensのデータセットを使う

R

MovieLens Data Sets | GroupLens Researchから「100,000 Data Set (.zip)」をダウンロード。 解凍したら、Rのワーキング・ディレクトリに「u.data」「u.item」を置く。 とりあえずファイル全体を読み込んでから必要な列だけを取り出すことにする。 u.item.l…

2.7.2 推薦を行う

R

事前に用意した映画の類似度行列に基づいて、任意のユーザーに次に見るべき映画を推薦する。 ここで評価と類似度を乗算したものを類似度の合計で割るという計算をしているのだけど、これも納得がいかないので算術平均を使うことにする。 前述したように評者…

2.7.1 アイテム間の類似度のデータセットを作る

R

この項では先に作ったtopMatches関数を使って作品ごとに類似性スコア高いほかの作品のリストを作っている。 だけど、R言語では作品ごとに処理するよりも行列として処理したほうが簡単なので、topMatches関数は使わずに類似性スコアの行列を直接作ってみる。 …

『集合知プログラミング』をR言語で書く

集合知プログラミング作者: Toby Segaran,當山仁健,鴨澤眞夫出版社/メーカー: オライリージャパン発売日: 2008/07/25メディア: 大型本購入: 91人 クリック: 2,220回この商品を含むブログ (277件) を見る「2.6 del.icio.usのリンクを推薦するシステムを作る」…

2.5 似ている製品

今度は amazon の「この商品を買った人はこんな商品も買っています」みたいな話ですね。 topMatches関数とgetRecommendations関数を再利用します。 要するに与えるデータの行と列を転置する(入れ替える)だけ。製品から製品を推薦。 topMatches(t(critics),…

2.4 アイテムを推薦する

今度はgetRecommendations関数を移植する。 ただし、id:shrkw:20081113:cloud_on_pci_1 でも 最後にそのアイテムを評価しているユーザーの類似度の計で除算するというのが理解できない。 と指摘されているように、評点の合計で割るというのは違和感があるの…

2.3.4 評者をランキングする

ここではtopMatches関数を移植するわけですが、その前に13ページの下記の記述について疑問を挙げておきます。 ピアソン相関係数を利用する上で興味深いことの一つとして、よい成績の大盤振る舞いによる誤差を修正してくれるという点が挙げられる。 それは全…

2.3.2 ピアソン相関によるスコア

R

相関係数はcor()で。 # 相関係数の算出(ピアソンの積率相関係数) (critics.cor.pea <- cor(critics, use="pairwise.complete.obs")) # 出力 # Lisa.Rose Gene.Seymour Michael.Phillips Claudia.Puig Mick.LaSalle Jack.Matthews Toby # Lisa.Rose 1.00000…

2.3.1 ユークリッド距離によるスコア

R

距離はdist()を使えば算出できる # 類似性スコアの算出(ユークリッド平方距離に基づく) (critics.dist.euc <- 1/(1+dist(t(critics))^2)) # 出力 # Lisa.Rose Gene.Seymour Michael.Phillips Claudia.Puig Mick.LaSalle Jack.Matthews # Gene.Seymour 0.14…

『集合知プログラミング』をR言語で書く

集合知プログラミング作者: Toby Segaran,當山仁健,鴨澤眞夫出版社/メーカー: オライリージャパン発売日: 2008/07/25メディア: 大型本購入: 91人 クリック: 2,220回この商品を含むブログ (277件) を見る

ユークリッド平方距離

『集合知プログラミング』のサンプルコードについて、疑問点があげられています。id:ksmemo:20080731:p1 と、サンプルコードを移植していて思ったのですが、ユークリッド距離だと差の二乗和の平方根をとったものなので、戻り値が return 1/(1 + sqrt($sum_of…

2.2 嗜好の収集(p10)

Lisa.Rose <- c(2.5, 3.5, 3.0, 3.5, 2.5, 3.0) Gene.Seymour <- c(3.0, 3.5, 1.5, 5.0, 3.5, 3.0) Michael.Phillips <- c(2.5, 3.0, NA, 3.5, NA, 4.0) Claudia.Puig <- c(NA, 3.5, 3.0, 4.0, 2.5, 4.5) Mick.LaSalle <- c(3.0, 4.0, 2.0, 3.0, 2.0, 3.0) J…

R言語で『集合知プログラミング』

やっと本が届いたのでちょこちょことR言語に翻訳してみる。 逐語訳じゃなくて、意訳(超訳?)になりますけど。

『集合知プログラミング』をR言語で書く

R

集合知プログラミング作者: Toby Segaran,當山仁健,鴨澤眞夫出版社/メーカー: オライリージャパン発売日: 2008/07/25メディア: 大型本購入: 91人 クリック: 2,220回この商品を含むブログ (277件) を見るといっても、実は発注したばかりで手元に届いていない…