Я сталкиваюсь с трудностями при использовании корпусов NLTK (в частности, стоп-слов) в AWS Lambda. Я знаю, что корпуса необходимо загрузить и сделать это с помощью NLTK.download («стоп-слова») и включить их в zip-файл, используемый для загрузки модулей лямбда в nltk_data/corpora/stopwords.Использование корпусов NLTK с функциями AWB Lambda в Python
Использование в коде следующим образом:
from nltk.corpus import stopwords
stopwords = stopwords.words('english')
nltk.data.path.append("/nltk_data")
Это возвращает следующее сообщение об ошибке из журнала выхода лямбда
module initialization error:
**********************************************************************
Resource u'corpora/stopwords' not found. Please use the NLTK
Downloader to obtain the resource: >>> nltk.download()
Searched in:
- '/home/sbx_user1062/nltk_data'
- '/usr/share/nltk_data'
- '/usr/local/share/nltk_data'
- '/usr/lib/nltk_data'
- '/usr/local/lib/nltk_data'
- '/nltk_data'
**********************************************************************
Я также попытался загрузить данные непосредственно в том числе
nltk.data.load("/nltk_data/corpora/stopwords/english")
Коды допускают другую ошибку ниже
module initialization error: Could not determine format for file:///stopwords/english based on its file
extension; use the "format" argument to specify the format explicitly.
Возможно, что у него возникла проблема с загрузкой данных из zamba Lambda и требуется, чтобы он хранился извне .. скажем, на S3, но это кажется немного странным.
Любая идея, что форматирование
Кто-нибудь знает, где я мог бы быть неправильно?
попробовать выполнить 'игнорируемых слов = nltk.corpus.stopwords.words («английский»)' и в блоке кода, он выглядит, как он выглядит в 'nltk_data' папку для corpora.stopwords, но промежуточный/пропал, отсутствует. Это может быть проблема с адресом каталога. Не 100% уверены, что это сработает, потому что я не вижу вашу систему или файл, но в противном случае выглядит ОК. – sconfluentus
Используйте полный путь, например. '/ home/sbx_user1062/nltk_data' и попробуйте: http://stackoverflow.com/a/22987374/610569 – alvas
Если ничего не работает, см.' magically_find_nltk_data() 'из http://stackoverflow.com/questions/36382937/nltk- doesnt-add-nltk-data-to-search-path/36383314 # 36383314 – alvas