Thursday, October 16, 2014

Macで日本語形態素解析 R RMeCab


Rのプロジェクトは以下ですが
http://www.r-project.org



R for Mac OS X のページからダウンロードしてくるのをお勧めします
http://cran.md.tsukuba.ac.jp/bin/macosx/


日本語解析エンジン R mecabの RMeCabを使うための用意です
========================= mecab インストール
mecabと辞書をまずインストールしてください

ダウンロード先
https://code.google.com/p/mecab/downloads/list
XXはバージョンNumber
・mecab-XX.tar.gz
・mecab-ipdic-XX.tar.gz

install------------------------------------------------
# mecab本体

 $ tar zxfv mecab-X.X.tar.gz
 $ cd mecab-X.X
 $ ./configure
 $ make
 $ make check
 $ sudo make install

#辞書のインストール
utfで使う場合 Mac,Linuxなら標準の方法
 $ tar zxfv mecab-ipadic-2.7.0-xxxx
 $ cd  mecab-ipadic-2.7.0-xxxx
 $ ./configure --with-charset=utf8
 $ make
 $ sudo make instal

====== RMeCabインストール==========================
・Rを起動  mecabがinstallされていれば
install.packages ("RMeCab", repos = "http://rmecab.jp/R")


補足-----------------------------------------------------------
# shift-jisの場合
$ tar zxfv mecab-ipadic-2.7.0-XXXX.tar.gz% cd mecab-ipadic-2.7.0-XXXX
$  ./configure
$  make
$ sudo make install

utf8で辞書を使えるように再構築
$ cd mecab-ipadic-2.7.0-xxxx% /usr/local/libexec/mecab/mecab-dict-index -f euc-jp -t utf-8
$ make install
configure option で --enable-utf8-only を指定すると. MeCab が扱う 文字コードを utf8 に固定します。 euc-jp や shift-jis をサポートする場合, MeCab 内部に変換用のテーブルを埋めこみます。 --enable-utf8-only を 指定することでテーブルの埋めこみを抑制し, 結果として実行バイナリを 小さくすることができます。