Я импортировал пакет nltk. Мне нужно использовать nltk.sent_tokenize и nltk.word_tokenize и когда я делаю, я получаю следующее сообщение об ошибке, независимо от того, что:Azure HDInsight - Ресурс u'tokenizers/punkt/english.pickle 'не найден
An error occurred while calling z:org.apache.spark.api.python.PythonRDD.runJob.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 1.0 failed 4 times, most recent failure: Lost task 0.3 in stage 1.0 (TID 7, 10.0.0.4): org.apache.spark.api.python.PythonException: Traceback (most recent call last):
File "/usr/hdp/current/spark-client/python/lib/pyspark.zip/pyspark/worker.py", line 111, in main
process()
File "/usr/hdp/current/spark-client/python/lib/pyspark.zip/pyspark/worker.py", line 106, in process
serializer.dump_stream(func(split_index, iterator), outfile)
File "/usr/hdp/current/spark-client/python/lib/pyspark.zip/pyspark/serializers.py", line 263, in dump_stream
vs = list(itertools.islice(iterator, batch))
File "<stdin>", line 2, in <lambda>
File "/usr/bin/anaconda/lib/python2.7/site-packages/nltk/tokenize/__init__.py", line 85, in sent_tokenize
tokenizer = load('tokenizers/punkt/{0}.pickle'.format(language))
File "/usr/bin/anaconda/lib/python2.7/site-packages/nltk/data.py", line 781, in load
opened_resource = _open(resource_url)
File "/usr/bin/anaconda/lib/python2.7/site-packages/nltk/data.py", line 895, in _open
return find(path_, path + ['']).open()
File "/usr/bin/anaconda/lib/python2.7/site-packages/nltk/data.py", line 624, in find
raise LookupError(resource_not_found)
LookupError:
**********************************************************************
Resource u'tokenizers/punkt/english.pickle' not found. Please
use the NLTK Downloader to obtain the resource: >>>
nltk.download()
Searched in:
- '/home/nltk_data'
- '/usr/share/nltk_data'
- '/usr/local/share/nltk_data'
- '/usr/lib/nltk_data'
- '/usr/local/lib/nltk_data'
- u''
**********************************************************************
Я упоминается много сообщений, обсуждающих эту тему и попытался nltk.download (all '), -d, также создавая подпапки.
Python Azure ML не поставляется с библиотекой nltk. Должен быть какой-то другой способ использования nltk на этой платформе. Пожалуйста помоги!! Спасибо!
Попробуйте: 'nltk.download ('all')' – alvas
Возможный дубликат [Resource u'tokenizers/punkt/english.pickle 'not found] (http://stackoverflow.com/questions/26570944/resource-utokenizers -punkt-english-pickle-not-found) – alvas
@alvas - я уже пробовал все, что упоминалось в приведенной выше ссылке, но они не будут работать. Можете ли вы предложить мне другую альтернативу, которая подходит для решения этой проблемы на Azure HDInsight ..? –