Есть ли возможность извлекать только контент с веб-страницы с помощью ruby. (Избегайте ссылок и других вещей)Извлечение статьи - Ruby
0
A
ответ
2
Чтобы выполнить очистку веб-страниц, вы должны использовать драгоценный камень mechanize
с nokogiri
для разбора dom.
0
Я бы порекомендовал Scrapy. Это Python, а не Ruby, но это потрясающе, что вы можете сделать с очень небольшими усилиями.
+0
Спасибо, я пройду через Scrapy. – Mothirajha
Смежные вопросы
- 1. Извлечение автора из статьи
- 2. извлечение статьи из кода json
- 3. Извлечение идентификатора статьи из массива
- 4. Извлечение основного содержимого статьи (JavaScript)
- 5. Извлечение комментариев из статьи с помощью disqus
- 6. jsoup - извлечение текста из статьи википедии
- 7. Извлечение всех изображений из статьи Joomla
- 8. Извлечение статьи из mysql с помощью slug
- 9. Извлечение содержимого HTML-статьи - альтернатива API Алхимии
- 10. Извлечение из строки - Ruby
- 11. Ruby on Rails Учебное пособие/статьи/новое
- 12. извлечение твитов с использованием ruby
- 13. Извлечение вводной части статьи в Википедии от python
- 14. Заголовок статьи и извлечение первого абзаца в Imacros
- 15. Извлечение статьи из mysql db с slug url
- 16. извлечение текста статьи в википедии с Cloud9 и hadoop
- 17. php + mysql: извлечение всех тегов для каждой статьи
- 18. Сортируйте массив в Ruby, игнорируя статьи («the», «a», «an»)
- 19. Разрешить владельцу статьи удалять его с помощью Ruby on Rails
- 20. Трек Даты просматриваемой статьи
- 21. Извлечь данные из статьи Википедии
- 22. Регулярное выражение в Ruby - извлечение из Gutenberg
- 23. Ruby Удаление извлечение ["a", "3"] из [3]
- 24. Извлечение определенных полей из данных в Ruby
- 25. Извлечение якоря из URL-адреса в ruby
- 26. Извлечение нескольких записей из массива Ruby,
- 27. ruby регулярное выражение и извлечение из строки
- 28. извлечение пути в строке с использованием ruby
- 29. Извлечение значения из сложного хэша в Ruby
- 30. Извлечение экземпляра из массива в ruby
Я использовал механизатор для утилизации, но библиотека котлов работает лучше, чтобы извлечь только содержимое статьи веб-страницы в python. Я хочу знать, есть ли драгоценный камень, похожий на котел. – Mothirajha
'Mechanize' - это самая быстрая библиотека для работы, и' nokogiri' позволит вам просто очистить часть страницы, которую вы хотите. (статья) – fyz
Можно ли отказаться от контента с разных сайтов без прохождения css или html-тегов с использованием mechanize и nokogiri ???? – Mothirajha