Я использую потоки Hadoop для написания HTML-граббера на основе python. Я нахожу, что запуск одиночного сценария python с потоком выполняется медленно. Я хочу изменить его на многопоточную версию. Кто-нибудь знает, что будет хорошим числом, чтобы установить количество потоков в Mapper. Я не уверен в спецификациях каждого узла кластера, но я предполагаю, что он будет поддерживать по крайней мере два потока.Threading with Hadoop Streaming
0
A
ответ
0
Я попытался использовать потоки с помощью python, были проблемы с Global Interpreter Lock. Портированный код для использования модуля многопроцессорности, внутренне hasoop присваивает столько карточек, что в кластере есть ядра, поэтому многопроцессорность не подходит, если вам нужно ускорить работу. Многопоточность, если она выполнена правильно, может привести к некоторому ускорению
0
У меня нет использования потоковой передачи для html-захватчика, но здесь есть post, рассказывающий о том, как работает urllib2 с помощью нескольких потоков (а не с несколькими пакетами обработки, просто с несколькими несколькими потоками).
Надеюсь, может быть полезно.
Смежные вопросы
- 1. python streaming with hadoop не работает
- 2. hadoop streaming with anaconda (python) не работает
- 3. hadoop streaming error, mapreduce with python
- 4. Hadoop API VS. Hadoop Streaming
- 5. Hadoop Streaming с C#
- 6. Hadoop streaming C++ getTaskId
- 7. Hadoop Streaming in .NET
- 8. Hadoop Streaming Multiline Input
- 9. Mongo-Hadoop streaming
- 10. Twitter - Hadoop Data Streaming
- 11. Hadoop streaming KeyFieldBasedPartitioner
- 12. Hadoop Streaming Использование памяти
- 13. Hadoop Streaming - Модуль зависимости
- 14. Threading with Twisted with Tkinter
- 15. hadoop streaming with C# на машинах linux/osx
- 16. Потоковые данные и Hadoop? (не Hadoop Streaming)
- 17. Python3 threading with uWSGI
- 18. Python Threading with Timer
- 19. UI Threading with ViewModels
- 20. Multi Threading with Singletons
- 21. Threading with Windows Forms
- 22. Threading with for loop
- 23. Threading with Tkinter
- 24. Threading with CPort
- 25. Threading with Bottle.py Server
- 26. Python - Threading with PyQt
- 27. Threading with progress bar
- 28. JApplet With Multi Threading
- 29. Threading With Async?
- 30. Streaming with Amazon S3
Threading, по-видимому, работает с потоком Hadoop, но до сих пор не знает, сколько потоков мы можем открутить на каждого преобразователя. – viper