2.8 MovieLensのデータセットを使う

MovieLens Data Sets | GroupLens Researchから「100,000 Data Set (.zip)」をダウンロード。
解凍したら、Rのワーキング・ディレクトリに「u.data」「u.item」を置く。
とりあえずファイル全体を読み込んでから必要な列だけを取り出すことにする。

u.item.list <- c("movie.id", "movie.title", "release.date",
                 "video.release.date", "IMDb.URL", "unknown", "Action",
                 "Adventure", "Animation", "Children's", "Comedy", "Crime",
                 "Documentary", "Drama", "Fantasy", "Film-Noir", "Horror",
                 "Musical", "Mystery", "Romance", "Sci-Fi", "Thriller", "War",
                 "Western")
u.item <- read.table("u.item2", sep="|", col.names=u.item.list)
# 出力
# 以下にエラー scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings,  : 
#   '15' 行目には,24 個の要素がありません 

む、エラーが出た。
どうも区切り記号をうまく読めていないみたい。
試行錯誤してみましたが、u.data は読み込めるものの u.item が読み込めない。
ひとまず、ここはスキップして3章へ進むことにします。