2012-04-11 4 views
0

после прочтения всего твиттера потокового API и Phirehose Документация PHP Я столкнулся с чем-то, что мне еще предстоит сделать, собрать и обработать данные по отдельности.Сбор и обработка данных с помощью PHP (Twitter Streaming API)

Логика позади него, если я правильно понимаю, заключается в том, чтобы предотвратить затор на этапе обработки, который будет поддерживать процесс сбора. Я видел примеры раньше, но они в основном пишут право на базу данных MySQL сразу после сбора, что, похоже, противоречит тому, что рекомендует твиттер.

Что я хотел бы получить совет или помощь, это лучший способ справиться с этим и тем, как это сделать. Кажется, что люди рекомендуют записывать все данные непосредственно в текстовый файл, а затем анализировать/обрабатывать его с помощью отдельной функции. Но с этим методом я бы предположил, что это может быть память.

Вот улов, все будет работать как процесс демона/фона. Так есть ли у кого-нибудь опыт решения такой проблемы, а точнее, библиотеки phirehose twitter? Благодаря!

Некоторые примечания: * Соединение будет через сокет, поэтому я предполагаю, что файл будет постоянно добавляться? не уверены, есть ли у кого-либо отзывы об этом

ответ

1

В библиотеке phirehose приведен пример того, как это сделать. См:

Это использует плоский файл, который является масштабируемой и очень быстро, то есть: Ваш средний жесткий диск можно записать последовательно в 40Мб/с + и масштабируется линейно (т. е. в отличие от базы данных, она не замедляется по мере увеличения).

Вам не нужны какие-либо функциональные возможности базы данных, чтобы потреблять поток (т. Е. Вам нужен только следующий твит, нет «запроса»).

Если вы довольно часто вращаете файл, вы получите почти реальную производительность (при желании).

Смежные вопросы