2008-01-01から1年間の記事一覧

3.4 デンドログラムを描く

R

クラスタリングが終わっていれば、樹形図を描くのは至極簡単。 plot(blog.hc, main="ブログのクラスタのデンドログラム", cex=0.75, hang=-1) サンプルサイズが99もあるのでちょっと見にくいですね。 普通、階層型クラスタリングを使うのはサンプルサイズが5…

3.3 階層的クラスタリング

R

「3.3.2 フィード中の単語を数える」は省略。 tmパッケージあたりを使えば良さそうですが。 Rを使ったテキストマイニングについていえば、近々本も出版されるみたいです。Rによるテキストマイニング入門作者: 石田基広出版社/メーカー: 森北出版発売日: 2008…

2.8 MovieLensのデータセットを使う

R

MovieLens Data Sets | GroupLens Researchから「100,000 Data Set (.zip)」をダウンロード。 解凍したら、Rのワーキング・ディレクトリに「u.data」「u.item」を置く。 とりあえずファイル全体を読み込んでから必要な列だけを取り出すことにする。 u.item.l…

2.7.2 推薦を行う

R

事前に用意した映画の類似度行列に基づいて、任意のユーザーに次に見るべき映画を推薦する。 ここで評価と類似度を乗算したものを類似度の合計で割るという計算をしているのだけど、これも納得がいかないので算術平均を使うことにする。 前述したように評者…

2.7.1 アイテム間の類似度のデータセットを作る

R

この項では先に作ったtopMatches関数を使って作品ごとに類似性スコア高いほかの作品のリストを作っている。 だけど、R言語では作品ごとに処理するよりも行列として処理したほうが簡単なので、topMatches関数は使わずに類似性スコアの行列を直接作ってみる。 …

『集合知プログラミング』をR言語で書く

集合知プログラミング作者: Toby Segaran,當山仁健,鴨澤眞夫出版社/メーカー: オライリージャパン発売日: 2008/07/25メディア: 大型本購入: 91人 クリック: 2,220回この商品を含むブログ (277件) を見る「2.6 del.icio.usのリンクを推薦するシステムを作る」…

2.5 似ている製品

今度は amazon の「この商品を買った人はこんな商品も買っています」みたいな話ですね。 topMatches関数とgetRecommendations関数を再利用します。 要するに与えるデータの行と列を転置する(入れ替える)だけ。製品から製品を推薦。 topMatches(t(critics),…

2.4 アイテムを推薦する

今度はgetRecommendations関数を移植する。 ただし、id:shrkw:20081113:cloud_on_pci_1 でも 最後にそのアイテムを評価しているユーザーの類似度の計で除算するというのが理解できない。 と指摘されているように、評点の合計で割るというのは違和感があるの…

2.3.4 評者をランキングする

ここではtopMatches関数を移植するわけですが、その前に13ページの下記の記述について疑問を挙げておきます。 ピアソン相関係数を利用する上で興味深いことの一つとして、よい成績の大盤振る舞いによる誤差を修正してくれるという点が挙げられる。 それは全…

2.3.2 ピアソン相関によるスコア

R

相関係数はcor()で。 # 相関係数の算出(ピアソンの積率相関係数) (critics.cor.pea <- cor(critics, use="pairwise.complete.obs")) # 出力 # Lisa.Rose Gene.Seymour Michael.Phillips Claudia.Puig Mick.LaSalle Jack.Matthews Toby # Lisa.Rose 1.00000…

2.3.1 ユークリッド距離によるスコア

R

距離はdist()を使えば算出できる # 類似性スコアの算出(ユークリッド平方距離に基づく) (critics.dist.euc <- 1/(1+dist(t(critics))^2)) # 出力 # Lisa.Rose Gene.Seymour Michael.Phillips Claudia.Puig Mick.LaSalle Jack.Matthews # Gene.Seymour 0.14…

『集合知プログラミング』をR言語で書く

集合知プログラミング作者: Toby Segaran,當山仁健,鴨澤眞夫出版社/メーカー: オライリージャパン発売日: 2008/07/25メディア: 大型本購入: 91人 クリック: 2,220回この商品を含むブログ (277件) を見る

ユークリッド平方距離

『集合知プログラミング』のサンプルコードについて、疑問点があげられています。id:ksmemo:20080731:p1 と、サンプルコードを移植していて思ったのですが、ユークリッド距離だと差の二乗和の平方根をとったものなので、戻り値が return 1/(1 + sqrt($sum_of…

2.2 嗜好の収集(p10)

Lisa.Rose <- c(2.5, 3.5, 3.0, 3.5, 2.5, 3.0) Gene.Seymour <- c(3.0, 3.5, 1.5, 5.0, 3.5, 3.0) Michael.Phillips <- c(2.5, 3.0, NA, 3.5, NA, 4.0) Claudia.Puig <- c(NA, 3.5, 3.0, 4.0, 2.5, 4.5) Mick.LaSalle <- c(3.0, 4.0, 2.0, 3.0, 2.0, 3.0) J…

R言語で『集合知プログラミング』

やっと本が届いたのでちょこちょことR言語に翻訳してみる。 逐語訳じゃなくて、意訳(超訳?)になりますけど。

『集合知プログラミング』をR言語で書く

R

集合知プログラミング作者: Toby Segaran,當山仁健,鴨澤眞夫出版社/メーカー: オライリージャパン発売日: 2008/07/25メディア: 大型本購入: 91人 クリック: 2,220回この商品を含むブログ (277件) を見るといっても、実は発注したばかりで手元に届いていない…

Rでブートストラップ

R

単純なものですが、半分お遊びで。 boot.mean <- function(x,times=1000){ set.seed(101) b <- numeric(times) for(i in 1:times){ c <- sample(x,replace=T) b[i] <- mean(c) } cat("回数",times,"\n") cat("bootstrap平均",mean(b),"\n") cat("bootstrap標…

データフレームを丸ごとT得点化

R

試しに、データフレームを丸ごとT得点化する関数を作ってみた。 T.score <- function(x) { result <- NULL for (nn in names(x)){ result <- cbind(result, 100-(qnorm(1-((rank(x[, nn])-0.5)/length(x[, nn])))*10+50)) } result <- data.frame(result) n…

T得点の算出

R

id:bob3:20080224 にR言語での「正規分位点(正規化得点)の算出」というのを書きましたが、どうも世間ではこれの線型変換であるT得点というのがメジャーであるらしい。 #正規分位点(正規化得点)の算出 qnorm(rank(X)/(length(X)+1)) # T得点の算出 100-…

グレコラテン方格

R

{agricolae} パッケージの関数 design.graeco を使うと簡単にグレコラテン方格がデザインできる。 > # パッケージの読み込み > library(agricolae) > > # 要因(因子、属性)と水準の設定 > T1<-c("A","B","C","D") > T2<-c("1","2","3","4") > > graeco <- …

みんな立派になっていく

学生時代の後輩が独立開業したというお知らせを頂く。 後輩といっても私は大したお世話もしていなくて、かえって申し訳ないぐらいのもんで。 こっちが事務所のページ↓ 「みそら行政書士・社会福祉士事務所」 こっちがブログ↓ 「日本初!リーガルソーシャルワ…

DEVOライブ@Shibuya AX

昨日のサマソニ08にも行きましたが見られ限りは全部見ておきたいDEVOです。 まぁ、昨日も凄かったけど、今日はセットリストを変えて来るだろし、何より大阪には来ていたらしいブギーボーイに会いたいからね。 いま、NHK近くのモスバーガーで休憩してるんです…

ここ数日、思い出せなくて気持ち悪かったものがやっと思い出せた。ゲーム紹介: ピット / Pit - ボードゲーム紹介十数年前の学生の頃、サークルのボックスで遊んだカードゲーム。 カードゲームだけどトランプやUNOとは雰囲気がぜんぜん違って大声を出しな…

Rによるマーケティング・シミュレーション作者: 朝野煕彦出版社/メーカー: 同友館発売日: 2008/04/26メディア: 単行本購入: 2人 クリック: 17回この商品を含むブログ (3件) を見る買う。

SUMMER SONIC 2019DEVO!!!!!DEVOがまた来てくれる模様。POLYSICSと共演?するらしい。最近のセットリストがここで見られる。 ::DEVO at Macworld 2008::2003年の来日時と比べて新しく入ってる曲は以下。 GOING UNDER PEEK-A-BOO! SECRET AGENT MAN GUT FEELI…

バブルチャートの描き方

R

From Data to Graphics近々使うので忘れないように。 バブルチャートをキレイに描いてくれるツールって、意外とないんだよね。

正規分位点(正規化得点)の算出

R

SASのJMPには変数の正規分位点(正規化得点)を保存する機能があるって、これがいろいろ重宝します。 コレぐらいのことR言語でもさくっとできるでしょうと思って探してみましたが、すんなりと出てこない。 qqnorm関数の内部で使われているはずなのに、qqnorm…

対話的にcsvファイルを読み込む方法

R

x <- read.csv(file.choose(), header=T) 他の人に作業を頼むときにはいいかも。

Frieve Editor

http://www.frieve.com/feditor/ 新めのツール。 モニタ上でグリグリいじくって考えるのにはピッタリ。 パワポやエクセルに落とし込んで印刷したりするのには向かないかな? これからの発展に期待。

FreeMind

http://freemind.sourceforge.net/wiki/ マインドマップにはコレ。