Я работаю над веб-скребком, который будет собирать данные с разных сайтов. Я начал использовать встроенные функции DOM в PHP, но после того, как вы столкнулись с несколькими проблемами (особенно в отношении неправильной разметки и кодировки символов), я решил отказаться от PHP. Я думал о стороне сервера Javascript, но открыт для других предложений. Если я использую Javascript, какой интерпретатор должен использовать?Лучший инструмент для манипуляций с DOM?
2
A
ответ
2
Пробовал Simple HTML DOM Parser еще?
1
Существует отличный модуль BeautifulSoup для Python, который может обрабатывать поврежденную разметку в большинстве случаев. Он также позволяет использовать перехватчики для предварительной обработки HTML, если страница настолько искажена, что ее встроенная эвристика не работает. Я использовал BeautifulSoup для написания десятков парсеров.
Существует также модуль html5lib, который работает быстрее, а также может анализировать недействительный HTML.
Оба модуля имеют порты Ruby.
Смежные вопросы
- 1. «Офсайд» копия DOM для манипуляций
- 2. Уловка DOM-манипуляций
- 3. Лучший пакет манипуляций с CSV для Laravel
- 4. Пользовательская директива для манипуляций с DOM в угловых js
- 5. D3js и React относительно манипуляций с DOM
- 6. Предотвращение прокрутки страницы после манипуляций с DOM
- 7. Как объектно-ориентированный Javascript используется для манипуляций с DOM
- 8. Использование цикла для упрощения манипуляций с DOM Vanilla JS
- 9. Лучший инструмент для визуализации онтологий?
- 10. Лучший инструмент для просмотра сообщений?
- 11. лучший инструмент для этого случая?
- 12. Лучший .NET инструмент для сборки
- 13. лучший инструмент для обратного отсчета?
- 14. Лучший инструмент отчетности для Python
- 15. Присоединение событий после манипуляций с DOM с помощью JQuery ajax
- 16. Лучший инструмент для планирования задач с интервалами?
- 17. Лучший инструмент для работы с Amazon RDS?
- 18. Лучший инструмент для создания MSI
- 19. Лучший инструмент CSS для использования
- 20. Событие после манипуляций с DOM в Sencha Touch
- 21. Получение манипуляций с DOM из контроллера в Angular 1.2.29
- 22. Лучший инструмент для просмотра кода для GIT
- 23. Лучший инструмент для макета для CSS?
- 24. Утилизация текстовых манипуляций в DOM с использованием jQuery
- 25. Лучший инструмент для макросъемки для веб-браузера
- 26. Лучший Managment инструмент
- 27. Угловой JS: Выполнение манипуляций с DOM после закрытия модального диалога
- 28. Как мы можем выполнить модульные тесты против манипуляций с DOM?
- 29. jQuery Mobile: как обновить страницу с помощью динамических манипуляций DOM?
- 30. Лучший API DOM для Java для HTML
Спасибо, я сделаю снимок. –