2014-12-12 2 views
0

Я имею дело с nutch, и я хочу ползать Flickr. Я хочу начать сNutch regex for Flickr

www.flickr.com/photos/tags 

затем выбрать несколько тегов (так что я выбрать несколько адресов типа www.flickr.com/photos/tags/tag_name). С другой стороны, я могу начать с некоторых тегов, которые я выбираю, так что мой список семян будет

www.flickr.com/photos/tags/beach 
    www.flickr.com/photos/tags/california 
    www.flickr.com/photos/tags/japan 
    ... 

Теперь эти страницы содержат много изображений, и мой робот должен выбрать эти адреса. К сожалению, эти URLs имеют вид

www.flickr.com/photos/user_name/photo_id 

Подводя итог, я хочу, чтобы ограничить свои обходы, чтобы:

www.flickr.com/photos/tags or if I start from particular tag www.flickr.com/photos/tags/tag_name 

и

www.flickr.com/photos/user_name/photo_id 

Как я могу справиться с этим?

Спасибо

+0

К сожалению, ребята. Я удалил Привет всех из сообщения :) –

+0

Подтвердите URL-адрес с помощью этого 'www \ .flickr \ .com/photos/(?: tags | [^ /] */photo_id) /?' – sln

+1

Спасибо, это помог мне –

ответ

0

Validate URL-адрес что-то вроде этого www.flickr.com/photos/(?:tags|[^/]*/photo_id)/? –   SLn