2009-04-02 3 views
5

Мне любопытно узнать о технологии, стоящей за поисковой системой, например torrentz.com. Из того, что я мог наблюдать, он не содержит никаких торрент-файлов, а скорее связывает вас с другими серверами, которые это делают.Как вы создаете индексатор торрентов?

  • Вы ищете ключевые слова, он отображает список потенциальных названий, соответствующих вашему запросу.
  • затем вы выбираете один из них, и он предоставляет вам другой список потенциальных серверов, на которых размещается соответствующий торрент-файл.

То, что я заинтересован в частности, стратегия за сбор и индексирование все, что содержание:

Как они собирают затем агрегировать данные?
Это базовая служба представления, где каждый из этих серверов отправляет свой контент для индексирования?
Это алгоритм сканирования? Если да, то как вы можете начать сканирование сайта, например, piratebay.org?
Имеют ли они доступ к базам данных этих других серверов?

Мои знания и понимание протокола bittorrent не очень сложны, но документация, которую я нашел в Интернете, указала мне больше на процессы, связанные с созданием трекер-сервиса, что не совсем то, что меня интересует. проницательность и рекомендуемый материал для чтения.

ответ

6

Для начала начинайте индексировать свои RSS-ленты и собирать данные из него. Следующим шагом будет индексирование страниц портала (например, Mininova, tpb и т. Д.), Но следите за тем, что вы можете быть заблокированы (на основе ip) для этого, поскольку это вызовет огромное количество данных, запрашиваемых с их серверов (i не думаю, что они слишком счастливы в этом).

Это говорит о том, что я сомневаюсь, что у них есть доступ к базам данных других серверов, но это сканирование + rss.

Еще одна вещь, которую вы можете использовать, заключается в том, что, когда кто-то делает запрос элемента, которого у вас нет в базе данных qyour, вы делаете запрос на основном портале bt, кешируете результат в своем db, а затем показываете Результаты. Затем, если другой пользователь сделает тот же запрос (что довольно распространенный сценарий), вы можете показать ему кэшированные данные + новые данные из rss.