2014-01-17 1 views
3

Использование NLTK 2.0.4. установленный для EPD Python-2.7.3 (не Canopy). на Ubuntu 12.10. В терминале I типа:Python nltk скачать и загрузить_shell и заморозить (зависает) при попытке punkt

In [96]: nltk.download_shell() 
NLTK Downloader 
--------------------------------------------------------------------------- 
    d) Download l) List u) Update c) Config h) Help q) Quit 
--------------------------------------------------------------------------- 
Downloader> d 

Download which package (l=list; x=cancel)? 
    Identifier> punkt 
    Downloading package 'punkt' to /home/espears/nltk_data... 

И затем он замерзает. Соответствующий файл punkt.zip записывается в указанный каталог, но интерфейс download никогда не отказывается.

Этот пример с IPython, но я пробовал то же самое с обычным интерпретатором Python 2.7.3 и получил тот же результат.

Когда я пытаюсь использовать unzip, чтобы распаковать файл напрямую, я вижу ошибки, говорящие, что правильный центральный код zip-файла не найден в файле и что его нельзя распаковать. Смотрите ниже:

[email protected] ~/nltk_data/tokenizers $ unzip punkt.zip 
Archive: punkt.zip 
    End-of-central-directory signature not found. Either this file is not 
    a zipfile, or it constitutes one disk of a multi-part archive. In the 
    latter case the central directory and zipfile comment will be found on 
    the last disk(s) of this archive. 
unzip: cannot find zipfile directory in one of punkt.zip or 
     punkt.zip.zip, and cannot find punkt.zip.ZIP, period. 

Это происходит как с nltk.download() и nltk.download_shell() таким же образом.

Я могу проверить файл .zip с помощью du, чтобы увидеть, что изначально его размер увеличивается от 0 МБ до 2,7 МБ, поэтому он фактически загружает что-то, и файл не пуст. Но он останавливается на 2,7 МБ (что может или не соответствует ожидаемому полному размеру файла), а затем загрузчик оболочки Python замерзает.

+0

Возможно, эта проблема? https://support.enthought.com/entries/25801945-NLTK-Natural-Language-Toolkit-download-function-hangs – BrenBarn

+0

Нет, я не использую Canopy. Это более раннее распространение от Enthought.Я также использую его через IPython, но могу подтвердить, что такое же повешение происходит, если оно используется непосредственно с терминала Python. Обратите внимание, что я испытываю ту же проблему, даже когда я использую 'download_shell', который обходит проблемы графики. – ely

ответ

1

У меня была такая же проблема, и загрузить необходимые элементы вручную, по следующей ссылке:

http://nltk.org/nltk_data/

Не искомое решение, но будет работать, пока это не будет устранена.

UPDATE:

я был фактически в состоянии запустить nltk.download() для установки cmudict. Может быть, эта проблема затрагивает только определенные пакеты?

0

У меня была такая же проблема с nltk 3.0.01b. Я загрузил пакет «книга» и отслеживал загрузку с сетевого экрана диспетчера задач, одновременно проверяя размер целевой папки (AppData \ Roaming \ nltk_data в моей системе Windows 7). Сетевой трафик прекратился, и папка перестала расти с размером 379 МБ. Но оболочка Python была заблокирована. Далее отображалось Последнее сообщение:

показывает информацию http://nltk.github.com/nltk_data/

Однако, если вы отмените из окна Tk, который показывает, что элементы загрузки доступны, команда nltk.download() завершит работу, и приглашение оболочки будет Вернись.

0

Скорее всего, он не застревает. Это может быть загрузка. Он загружается гораздо медленнее, даже если у вас есть хорошее подключение к Интернету. Я продолжал проверять размер папки, используя цикл while, и он медленно увеличивался, и это было успешно, наконец. Это сработало бы, если бы вы ждали. Распаковка могла быть неудачной, потому что вы пытались распаковать до загрузки всего файла.

Смежные вопросы