Я имею дело с nutch, и я хочу ползать Flickr. Я хочу начать сNutch regex for Flickr
www.flickr.com/photos/tags
затем выбрать несколько тегов (так что я выбрать несколько адресов типа www.flickr.com/photos/tags/tag_name). С другой стороны, я могу начать с некоторых тегов, которые я выбираю, так что мой список семян будет
www.flickr.com/photos/tags/beach
www.flickr.com/photos/tags/california
www.flickr.com/photos/tags/japan
...
Теперь эти страницы содержат много изображений, и мой робот должен выбрать эти адреса. К сожалению, эти URLs имеют вид
www.flickr.com/photos/user_name/photo_id
Подводя итог, я хочу, чтобы ограничить свои обходы, чтобы:
www.flickr.com/photos/tags or if I start from particular tag www.flickr.com/photos/tags/tag_name
и
www.flickr.com/photos/user_name/photo_id
Как я могу справиться с этим?
Спасибо
К сожалению, ребята. Я удалил Привет всех из сообщения :) –
Подтвердите URL-адрес с помощью этого 'www \ .flickr \ .com/photos/(?: tags | [^ /] */photo_id) /?' – sln
Спасибо, это помог мне –