Windows上でPythonを利用してNLTK(Natural Language ToolKitの略)を動作させるために行うべき手順についての覚書。NLTKというのは、自然言語処理のためのライブラリです。
- Pythonのインストール
- バージョンは2.xを用いるようにしましょう。NLTKは3.x系に対応しているという情報は公式サイトにはありませんでした。ダウンロード先はこちら(Python Japan User's Group)から2.6.6のインストーラを使うことにしましょう。私は2.6.5を使っていますが(汗
- インストール先はデフォルト(C:/Python26)でよいかと思います。
- 環境変数の登録も忘れずに。環境変数の登録はスタート->マイコンピュータを右クリック->プロパティ->詳細設定タブ->環境変数ボタンと進めれば設定画面に移動できます。
- 環境変数PathにC:/Python26を追加しましょう。システムでもユーザでもどちらでも良いかと思います。Pathが無ければ追加して作成してください。
- バージョンは2.xを用いるようにしましょう。NLTKは3.x系に対応しているという情報は公式サイトにはありませんでした。ダウンロード先はこちら(Python Japan User's Group)から2.6.6のインストーラを使うことにしましょう。私は2.6.5を使っていますが(汗
- NLTKダウンロードページより、NLTKと連動するツールをダウンロードしましょう。以下のツールをダウンロード、インストールします。インストールはすべて、デフォルトの設定で問題ないです。勝手にC:/Python26を見つけてその下にいろいろとインストールしてくれます。少なくともPyYAML、NLTKをインストールする必要があります。他にもグラフを描く関数が呼べないと困りますので、matplotlibとNumPyを入れておくのがよいかと思います。
- PyYAML
- NLTK
- NumPy(Pythonの数学関数ライブラリ)
- matplotlib(グラフ描画のためのライブラリである。NumPyとも連動する箇所があるらしい。)
- PyYAML
- NLTKのデータを入れる
- NLTKでいろいろ試したいという場合に、サンプルデータを利用することができます。
- pythonを立ち上げて、次のようにコマンドを打ち込みます。
>>> import nltk >>> nltk.download()
現れた画面で、bookを選択してダウンロードしましょう(画面は既にインストール済みになっていますが...)。私の場合、テキストファイルの保存先はそのままで試しています。
- NLTKでいろいろ試したいという場合に、サンプルデータを利用することができます。
- NLTKの簡単な動作確認
- 以上でインストール関連の作業は終了したので、動作確認をしましょう。
>>> from nltk.book import * # サンプルテキストの読み込み *** Introductory Examples for the NLTK Book *** Loading text1, ..., text9 and sent1, ..., sent9 Type the name of the text or sentence to view it. Type: 'texts()' or 'sents()' to list the materials. text1: Moby Dick by Herman Melville 1851 text2: Sense and Sensibility by Jane Austen 1811 text3: The Book of Genesis text4: Inaugural Address Corpus text5: Chat Corpus text6: Monty Python and the Holy Grail text7: Wall Street Journal text8: Personals Corpus text9: The Man Who Was Thursday by G . K . Chesterton 1908 >>> len(text1) # text1の単語数を確認 260819
- 以上でインストール関連の作業は終了したので、動作確認をしましょう。
0 件のコメント:
コメントを投稿