Thursday, October 16, 2014
Macで日本語形態素解析 R RMeCab
Rのプロジェクトは以下ですが
http://www.r-project.org
R for Mac OS X のページからダウンロードしてくるのをお勧めします
http://cran.md.tsukuba.ac.jp/bin/macosx/
日本語解析エンジン R mecabの RMeCabを使うための用意です
========================= mecab インストール
mecabと辞書をまずインストールしてください
ダウンロード先
https://code.google.com/p/mecab/downloads/list
XXはバージョンNumber
・mecab-XX.tar.gz
・mecab-ipdic-XX.tar.gz
install------------------------------------------------
# mecab本体
$ tar zxfv mecab-X.X.tar.gz
$ cd mecab-X.X
$ ./configure
$ make
$ make check
$ sudo make install
#辞書のインストール
utfで使う場合 Mac,Linuxなら標準の方法
$ tar zxfv mecab-ipadic-2.7.0-xxxx
$ cd mecab-ipadic-2.7.0-xxxx
$ ./configure --with-charset=utf8
$ make
$ sudo make instal
====== RMeCabインストール==========================
・Rを起動 mecabがinstallされていれば
install.packages ("RMeCab", repos = "http://rmecab.jp/R")
補足-----------------------------------------------------------
# shift-jisの場合
$ tar zxfv mecab-ipadic-2.7.0-XXXX.tar.gz% cd mecab-ipadic-2.7.0-XXXX
$ ./configure
$ make
$ sudo make install
utf8で辞書を使えるように再構築
$ cd mecab-ipadic-2.7.0-xxxx% /usr/local/libexec/mecab/mecab-dict-index -f euc-jp -t utf-8
$ make install
configure option で --enable-utf8-only を指定すると. MeCab が扱う 文字コードを utf8 に固定します。 euc-jp や shift-jis をサポートする場合, MeCab 内部に変換用のテーブルを埋めこみます。 --enable-utf8-only を 指定することでテーブルの埋めこみを抑制し, 結果として実行バイナリを 小さくすることができます。