Блог экспериментатора инженера-разработчика: Infanty.
Я пишу how-to статьи на редкие темы или статьи обзоры - для себя и тех кто со мной работает.
Блог существует при поддержке: "Оккупационных сил Марса".

Python 2.7 использует в своей работе кодировку ANSI и неправильно отображает русские символы в консоли Ubuntu 14.04. Но так как большинство книг используют в своих примерах именно Python 2.7 (на момент написания статьи), то будет полезно установить данную версию Python и библиотеку NLTK 3.1 на сервер - для разбора академических примеров из книг. Установим Python, систему управления пакетами для него и с помощью системы управления пакетами - установим библиотеку NLTK. Для этого наберём в консоли:

sudo apt-get install -y python python-dev
sudo apt-get install python-pip
sudo pip install -U nltk

Проверим работу библиотеки, импортировав словари для неё (перед этим необходимо создать папку: "/usr/share/nltk_data" и дать на неё права 777) и разбив с её помощью тестовое предложение на слова. Для этого наберём в консоли:

python

import nltk
nltk.download('punkt')

import nltk
sentence = """At eight o'clock on Thursday morning. Arthur didn't feel very good."""
tokens = nltk.word_tokenize(sentence)
tokens

Для работы с русским текстом в кодировке UTF-8 и его нормального отображения в консоли Ubuntu, необходимо использовать библиотеку NLTK совместно с Python 3.3. Версия 3.4 уже не совместима с текущей реализацией библиотеки NLTK версии 3.1. Добавим новый репозитарий программного обеспечения в Ubuntu, установим Python и систему управления пакетами для него и с помощью системы управления пакетами - установим библиотеку NLTK в указанную директорию, загрузив её с сайта https://pypi.python.org/. Для этого наберём в консоли:

sudo apt-get install -y python-software-properties
sudo add-apt-repository -y ppa:fkrull/deadsnakes
sudo apt-get update
sudo apt-cache show python3.3
sudo apt-get install -y python3.3 python3.3-dev
python3.3 --version

sudo apt-get install python3-pip
sudo pip3 install pyyaml

cd /home/nltk
wget https://pypi.python.org/packages/source/n/nltk/nltk-3.1.tar.gz
tar -xzvf nltk-3.1.tar.gz
cd /home/nltk/nltk-3.1
sudo python3.3 /home/nltk/nltk-3.1/setup.py install

Проверим работу библиотеки разбив с её помощью два тестовых набора предложений на слова, набрав в консоли:

python3.3

import nltk
sentence = """At eight o'clock on Thursday morning. Arthur didn't feel very good."""
tokens = nltk.word_tokenize(sentence)
tokens

import nltk
sentence = """Мама мыла раму. Arthur didn't feel very good."""
tokens = nltk.word_tokenize(sentence)
tokens

При необходимости импортируем словари для NLTK перед этим создав папку: "/usr/share/nltk_data" и дав на неё права 777.

python3.3 
import nltk
nltk.download('all')