2011年7月27日水曜日

NLTK導入メモ

Windows上でPythonを利用してNLTK(Natural Language ToolKitの略)を動作させるために行うべき手順についての覚書。NLTKというのは、自然言語処理のためのライブラリです。

  1. Pythonのインストール
    • バージョンは2.xを用いるようにしましょう。NLTKは3.x系に対応しているという情報は公式サイトにはありませんでした。ダウンロード先はこちら(Python Japan User's Group)から2.6.6のインストーラを使うことにしましょう。私は2.6.5を使っていますが(汗
    • インストール先はデフォルト(C:/Python26)でよいかと思います。
    • 環境変数の登録も忘れずに。環境変数の登録はスタート->マイコンピュータを右クリック->プロパティ->詳細設定タブ->環境変数ボタンと進めれば設定画面に移動できます。
    • 環境変数PathにC:/Python26を追加しましょう。システムでもユーザでもどちらでも良いかと思います。Pathが無ければ追加して作成してください。
  2. NLTKダウンロードページより、NLTKと連動するツールをダウンロードしましょう。以下のツールをダウンロード、インストールします。インストールはすべて、デフォルトの設定で問題ないです。勝手にC:/Python26を見つけてその下にいろいろとインストールしてくれます。少なくともPyYAML、NLTKをインストールする必要があります。他にもグラフを描く関数が呼べないと困りますので、matplotlibとNumPyを入れておくのがよいかと思います。
    • PyYAML
    • NLTK
    • NumPy(Pythonの数学関数ライブラリ)
    • matplotlib(グラフ描画のためのライブラリである。NumPyとも連動する箇所があるらしい。)
  3. NLTKのデータを入れる
    • NLTKでいろいろ試したいという場合に、サンプルデータを利用することができます。
    • pythonを立ち上げて、次のようにコマンドを打ち込みます。
      >>> import nltk
      >>> nltk.download()
      現れた画面で、bookを選択してダウンロードしましょう(画面は既にインストール済みになっていますが...)。私の場合、テキストファイルの保存先はそのままで試しています。

  4. NLTKの簡単な動作確認
    • 以上でインストール関連の作業は終了したので、動作確認をしましょう。
      >>> from nltk.book import * # サンプルテキストの読み込み
      *** Introductory Examples for the NLTK Book ***
      Loading text1, ..., text9 and sent1, ..., sent9
      Type the name of the text or sentence to view it.
      Type: 'texts()' or 'sents()' to list the materials.
      text1: Moby Dick by Herman Melville 1851
      text2: Sense and Sensibility by Jane Austen 1811
      text3: The Book of Genesis
      text4: Inaugural Address Corpus
      text5: Chat Corpus
      text6: Monty Python and the Holy Grail
      text7: Wall Street Journal
      text8: Personals Corpus
      text9: The Man Who Was Thursday by G . K . Chesterton 1908
      >>> len(text1) # text1の単語数を確認
      260819
      
    ここまでできれば、NLTKを用いた自然言語処理が始められるようです。Hello, NLP world!

0 件のコメント:

コメントを投稿

フォロワー

ブログ アーカイブ

ページビューの合計