2010-10-27 2 views
0

Я собираю сайт статистики форума, и мне нужно найти количество активных участников на нескольких форумах.Как найти количество активных участников форума?

У многих есть «Всего членов», но это меня не помогает.

Я рассматриваю «Активный» как человека, который опубликовал не менее 5 раз в течение 6 последних месяцев.

Я действительно недоумеваю, как это можно сделать. Какие-либо предложения?

+2

У вас есть доступ к базам данных этого форума? –

+0

У меня нет, к сожалению. Я мог бы сделать скрипт php/mysql, если бы это было так, и я был бы золотым. Другие мысли? –

ответ

2

Если у вас нет доступа к базе данных, соскабливание html-страниц, следующих ссылок и определение post-date & post-user из самого HTML, похоже, только для gp. (HTTPRequest или cURL для извлечения, в сочетании с DOMDocument/DOMXpath для надежного разбора HTML & нахождения явных узлов), сохраняя его в вашей собственной базе данных. В целом, в зависимости от точной компоновки HTML-форумов, не совсем сложной, но большой работы и, возможно, работы, которую вы должны повторять снова и снова с небольшими вариантами для каждого другого форума.

Если на форумах есть RSS-каналы или другие способы получения более структурированного контента/данных, то объем работы, необходимой для работы, может быть значительно уменьшен.

+0

Знаете ли вы о каких-либо учебниках или дополнительной информации о том, как можно начать это? У меня хорошее понимание php, но это, скорее всего, будет самым сложным, что я сделал до настоящего времени. –

+0

По сути, вы ищете сканера с возможностью анализа отдельных страниц с помощью специальной функции. Googling для «php crawling» дает множество учебников и даже загрузок уже построенных классов, вы можете попробовать некоторые из них. Для фактического синтаксического анализа страницы: с помощью Firebug в Firefox очень легко получить XPath для требуемых вами узлов (или создать свои собственные пути, [это хороший хорват XPath] (http://zvon.org/comp/ r/tut-XPath_1.html)) – Wrikken

+0

Спасибо, ты был очень полезным. Я использую PHPCrawler и добавил некоторые пользовательские коды DOMDocument и DOMXpath для фильтрации необходимых данных. Затем он хранится прямо в базе данных mysql для легкого доступа. Это аккуратно! –

Смежные вопросы