Я ищу методы для извлечения различных данных с различных сайтов. Я знаю, что есть программы, которые вы можете купить, но будучи тем, что я пытаюсь научиться, я хочу сделать это сам. Кто-нибудь имеет какие-либо предложения по общей структуре, и если да, то на каком языке вы его напишете. Моя первая мысль была java, но я более чем готов и благодарен услышать чье-либо мнение.Извлечение данных?
ответ
Какие данные вы пытаетесь извлечь из веб-сайтов? Какие сайты? и т. д. Было бы полезно узнать немного больше о вашей идее/проекте
Мне недавно нужно было изучить и попробовать несколько синтаксических анализаторов html, чтобы получить нужные мне данные в более консолидированном формате.
Я попробовал JTidy (http://jtidy.sourceforge.net/) и изучил веб-урожай (http://web-harvest.sourceforge.net/). JTidy не будет делать то, что я хотел, и Web-Harvest был излишним.
я в конечном итоге остановились на использовании Java + HTMLparser (http://htmlparser.sourceforge.net/)
Прошло очень мало времени разработки, чтобы получить то, что мне нужно, и HTMLparser позволяет формировать «фильтры», которые поиск конкретных вещей в DOM.
посмотреть на hadoop (сетки) и solr (сканеры и указатели). Они поддерживают высокую обработку и эффективную индексацию (для эффективного поиска) соответственно.
- 1. Извлечение данных
- 2. Извлечение данных из базы данных
- 3. Извлечение данных из набора данных
- 4. Извлечение данных из основных данных
- 5. Извлечение данных из базы данных?
- 6. Извлечение данных в основных данных
- 7. Извлечение данных из основных данных
- 8. извлечение данных из набора данных
- 9. Извлечение данных SharedPreferences Ошибка данных
- 10. Извлечение строки из данных
- 11. извлечение данных из sscanf
- 12. Извлечение данных на Java
- 13. Matlab - извлечение данных обтекания
- 14. Извлечение данных из твиттера
- 15. AFNetworking Асинхронное извлечение данных
- 16. Извлечение данных из JSON
- 17. Ошибка Извлечение данных JSON
- 18. Извлечение данных Geneos
- 19. извлечение данных из NSMutableArray
- 20. Извлечение цифровых данных доступа
- 21. Извлечение данных из BattleNet
- 22. Извлечение данных DB2
- 23. извлечение данных HTTP-сообщений
- 24. Извлечение данных из таблицы
- 25. Извлечение данных из БД
- 26. Извлечение данных из javascript
- 27. Извлечение данных из страницы
- 28. Извлечение веб-данных
- 29. Извлечение данных из подслоев
- 30. Извлечение данных из строки
Предположим, что я извлекаю цены с определенного конечного числа сайтов. И пользователь получает информацию о различных точках информации. И затем спросил через эти сайты .. Спасибо за вашу помощь – Eric