2015-01-10 2 views
0

Я ищу полезные полезные камни в рубине для очистки. В принципе, я ищу, чтобы очистить основной корпус со страницы. То есть, только основное тело и его медиа (изображения). Нет боковых или нижних колонтитулов или типов навигационных элементов.Скопируйте текст и медиа с URL-адреса

Я знаю, что соскабливание требует множества специфических особенностей, таких как знание классов и идентификаторов и т. Д. Поэтому мне интересно, есть ли инструмент, который делает что-то вроде этого?

Хорошим примером может служить опция «Просмотр читателя» в сафари, когда на iOS. Там, где он просто показывает исходный контент со страницы. С необходимыми заголовками и параграфами.

+1

Попробуйте [nokogiri] (http://www.nokogiri.org/). – orde

+0

Право, мне интересно, как я могу начать добычу заголовков, абзацев и изображений (и без боковых панелей, содержимого заголовка и нижнего колонтитула), не зная xpath – psharma

ответ

0

Использование Nokogiri

И вы также можете использовать Css Selector Gadget найти классы. Это должно быть полезно для поиска правильных классов заголовков и тел или идентификаторов.

Читатель Просмотр не сохраняет полосу пропускания

+0

Извините, я думаю, что я не был чист. Я хотел очистить веб-сайты, когда я не знаю xpaths, classes или id – psharma

Смежные вопросы