R

第4回Rユーザー会

R

結論から言うと、今回のRユーザー会の個人的なキーワードは、 「現実をしっかり見据えましょう。 統計で最も広く使われているソフトウェアは Excel なのです。」 でした。 それと講演中に“なう”なヤングたちがtwitterでtsudaってる姿も、これまでには無かっ…

統計数理研究所

R

統計数理研究所の外見はこんな感じです。 ……嘘です。 こんな感じ。 ……こっちは嘘じゃないですが、多少誇張しております。 実際はこんな感じ。天気が悪いのが残念でした。 国立極地研究所と国文学研究資料館も同じ建物に入居しています。 そんなわけで1階で…

マクネマー検定の多重比較

R

pairwise.prop.test関数やpairwise.t.test関数、pairwise.wilcox.test関数みたいなことをマクネマー検定でやりたい。 クラスカル・ウォリス検定やフリードマン検定からの多重比較については群馬大の青木先生の関数が存在するけど、マクネマー検定版は無いみ…

Rで直交計画

R

以前、Rで直交表に基づいた実験計画を立てる関数はないかと探したことがあって、そのときは S-Plus に oa.design() という関数があるというところまでしかわからなかった。 で、偶然さきほどDoE.baseパッケージに oa.design() という関数が含まれているのを…

3.4 デンドログラムを描く

R

クラスタリングが終わっていれば、樹形図を描くのは至極簡単。 plot(blog.hc, main="ブログのクラスタのデンドログラム", cex=0.75, hang=-1) サンプルサイズが99もあるのでちょっと見にくいですね。 普通、階層型クラスタリングを使うのはサンプルサイズが5…

3.3 階層的クラスタリング

R

「3.3.2 フィード中の単語を数える」は省略。 tmパッケージあたりを使えば良さそうですが。 Rを使ったテキストマイニングについていえば、近々本も出版されるみたいです。Rによるテキストマイニング入門作者: 石田基広出版社/メーカー: 森北出版発売日: 2008…

2.8 MovieLensのデータセットを使う

R

MovieLens Data Sets | GroupLens Researchから「100,000 Data Set (.zip)」をダウンロード。 解凍したら、Rのワーキング・ディレクトリに「u.data」「u.item」を置く。 とりあえずファイル全体を読み込んでから必要な列だけを取り出すことにする。 u.item.l…

2.7.2 推薦を行う

R

事前に用意した映画の類似度行列に基づいて、任意のユーザーに次に見るべき映画を推薦する。 ここで評価と類似度を乗算したものを類似度の合計で割るという計算をしているのだけど、これも納得がいかないので算術平均を使うことにする。 前述したように評者…

2.7.1 アイテム間の類似度のデータセットを作る

R

この項では先に作ったtopMatches関数を使って作品ごとに類似性スコア高いほかの作品のリストを作っている。 だけど、R言語では作品ごとに処理するよりも行列として処理したほうが簡単なので、topMatches関数は使わずに類似性スコアの行列を直接作ってみる。 …

2.3.2 ピアソン相関によるスコア

R

相関係数はcor()で。 # 相関係数の算出(ピアソンの積率相関係数) (critics.cor.pea <- cor(critics, use="pairwise.complete.obs")) # 出力 # Lisa.Rose Gene.Seymour Michael.Phillips Claudia.Puig Mick.LaSalle Jack.Matthews Toby # Lisa.Rose 1.00000…

2.3.1 ユークリッド距離によるスコア

R

距離はdist()を使えば算出できる # 類似性スコアの算出(ユークリッド平方距離に基づく) (critics.dist.euc <- 1/(1+dist(t(critics))^2)) # 出力 # Lisa.Rose Gene.Seymour Michael.Phillips Claudia.Puig Mick.LaSalle Jack.Matthews # Gene.Seymour 0.14…

『集合知プログラミング』をR言語で書く

R

集合知プログラミング作者: Toby Segaran,當山仁健,鴨澤眞夫出版社/メーカー: オライリージャパン発売日: 2008/07/25メディア: 大型本購入: 91人 クリック: 2,220回この商品を含むブログ (277件) を見るといっても、実は発注したばかりで手元に届いていない…

Rでブートストラップ

R

単純なものですが、半分お遊びで。 boot.mean <- function(x,times=1000){ set.seed(101) b <- numeric(times) for(i in 1:times){ c <- sample(x,replace=T) b[i] <- mean(c) } cat("回数",times,"\n") cat("bootstrap平均",mean(b),"\n") cat("bootstrap標…

データフレームを丸ごとT得点化

R

試しに、データフレームを丸ごとT得点化する関数を作ってみた。 T.score <- function(x) { result <- NULL for (nn in names(x)){ result <- cbind(result, 100-(qnorm(1-((rank(x[, nn])-0.5)/length(x[, nn])))*10+50)) } result <- data.frame(result) n…

T得点の算出

R

id:bob3:20080224 にR言語での「正規分位点(正規化得点)の算出」というのを書きましたが、どうも世間ではこれの線型変換であるT得点というのがメジャーであるらしい。 #正規分位点(正規化得点)の算出 qnorm(rank(X)/(length(X)+1)) # T得点の算出 100-…

グレコラテン方格

R

{agricolae} パッケージの関数 design.graeco を使うと簡単にグレコラテン方格がデザインできる。 > # パッケージの読み込み > library(agricolae) > > # 要因(因子、属性)と水準の設定 > T1<-c("A","B","C","D") > T2<-c("1","2","3","4") > > graeco <- …

バブルチャートの描き方

R

From Data to Graphics近々使うので忘れないように。 バブルチャートをキレイに描いてくれるツールって、意外とないんだよね。

正規分位点(正規化得点)の算出

R

SASのJMPには変数の正規分位点(正規化得点)を保存する機能があるって、これがいろいろ重宝します。 コレぐらいのことR言語でもさくっとできるでしょうと思って探してみましたが、すんなりと出てこない。 qqnorm関数の内部で使われているはずなのに、qqnorm…

対話的にcsvファイルを読み込む方法

R

x <- read.csv(file.choose(), header=T) 他の人に作業を頼むときにはいいかも。

使えそうなパッケージ。

R

arm: 回帰式およびマルチレベル/階層型モデルを使ったデータ解析 R: Data Analysis Using Regression and Multilevel/Hierarchical Models http://cged.genes.nig.ac.jp/RGM2/index.php?scope=name&query=arm この本のためのパッケージらしい。 Home page f…

順序ロジット/プロビット

R

順序ロジスティック回帰(順序ロジット)の練習。この資料にSPSSとStataによる順序ロジットの例が載っている。ここにStata形式のデータがあるのでこれを使わせてもらう。 library(foreign) # Stata形式のデータを読むためにforeignパッケージを読み込み。 li…

近々、使いそうな関数たち。

R

lm{stats} 普通に重回帰分析とかに使う。 polr{MASS} 順序ロジスティック/プロビット回帰。目的変数が順序尺度。 clogit{survival} 条件付ロジスティック回帰。 glmmML{glmmML} 一般化線形混合モデル。

メモ

R

Econometrics in R PDF ロジスティック回帰、プロビット回帰などなど。

メモ

R

付加データ:『経済・経営のための統計学』: 有斐閣書籍編集第2部 経済・経営のための統計学 (有斐閣アルマ)作者: 牧厚志,和合肇,西山茂,人見光太郎,吉川肇子,吉田栄介,濱岡豊出版社/メーカー: 有斐閣発売日: 2005/03/01メディア: 単行本 クリック: 36回この…

glmmとか

R

ランダム効果で処理するものらしい。んで、clogitを使うのが王道らしいけど、これだと個人差は処理できないのでは? 呈示の仕方をMA1問にすりゃ組合せによるランダム効果はなくなるのか。 でもそれだと、対象者の負担を減らすという目的から見て本末転倒だ…

二値の因子分析

二値のデータ(binary data)の因子分析か構造方程式モデリング(共分散構造分析、SEM)と格闘する必要に迫られてきた。 ごにょごにょと調べてみると、やはりφ係数を基に分析するのはよろしくないらしい。心理学研究の基礎(fpr)メーリングリストに関連する議…

クラスターインデックス

R

cclustパッケージだけでなく、clusterSimというパッケージでもクラスターインデックスが算出できるらしい。 関数で言うと、index.G1 が Calinski-Harabasz pseudo F-statistic(擬似F統計量)の算出。 あとでhelpをよく読もう。

R言語でZipfの法則

R

R言語でジップの法則のヒストグラムを描く。 R help archive:Zipf random number generationより引用。 x0<-1:10000; t<-0.999; p<-((t^x0)/x0)/(-log(1-t)) Y<-sample(x0,5000,replace=TRUE,prob=p) hist(Y,breaks=100)

決定木

R

Rで決定木を実行する方法のメモ。 Rと樹木モデルを主に参考にした。 Rで決定木を実行するパッケージにはtree,rpart,mvpart,party,ipredなどがある。 このうちrpartはいわゆるCARTでGini係数を分割基準として使っている。また、エントロピーを分割基準とし…

変数のコーディング用関数

R

ちゃんとあるじゃん。 carパッケージにrecodeという関数があった。