2013-06-07 1 views
4

Первичный вопрос: ограничат ли ограничения в Twitter ваши данные, необходимые для построения полного графика социальной сети со всеми направленными ребрами из примерно 600 тыс. Пользователей?Ограничения лимита Twitter позволят мне выполнить сбор данных, необходимых для построения полного графика социальной сети около 600 тыс. Пользователей?

Вот идея:

Ребра/связи/отношения в сети будет последователем/с последующим отношения.

Начните с определенного списка примерно из 600 пользователей Twitter, выбранных потому, что они все из всех новостных отделений в большом городе.

Соберите всех подписчиков и друзей (люди, которых они следуют) для всех 600 пользователей. У этих пользователей, вероятно, есть среднее число последователей по 2000 человек. У них, вероятно, есть среднее число друзей (люди, которых они следуют) из 500.

Поскольку эти последователи 600 находятся в одном городе, ожидается, что многие из этих последователей будут теми же пользователями, которые следуют за этими 600 людьми , Итак, давайте приблизиться и догадаться, что у этих 600 пользователей всего 600 000 последователей и друзей. Таким образом, это будет подграф/сеть из 600 600 пользователей Twitter.

Итак, как только я собрал всех 600 000 последователей и друзей всех этих 600 человек, я хочу иметь возможность построить социальную сеть из всех этих 600 600 человек и их последователей. Это потребовало бы, чтобы я мог по крайней мере найти все направленные ребра среди этих 600 600 пользователей (независимо от того, следуют ли каждый из этих 600 600 пользователей друг друга). С лимитом скорости Twitter, будет ли этот вид интеллектуального анализа данных осуществимым?

+0

Возможно, вы могли бы рассказать нам о ставках в твиттере, поэтому нам не нужно искать их сами. Плюс, моя главная забота заключается в том, что получившаяся в результате сеть в значительной степени бессмысленна ... что * семантика * делает твиттер, который на самом деле имеет? Не намного больше, чем «случайно нажал неправильную кнопку», не так ли? –

+0

Уверены ли вы, что у вас есть аппаратное обеспечение, чтобы хруст числа на графике с 600K узлами и примерно 1.2M ребрами (используя вашу оценку 2K последователей каждый)? –

ответ

1

Я отвечу на эти вопросы в обратном порядке, начиная с Дэвида Маркса: Ну, у меня есть доступ к довольно прочному компьютерному исследовательскому центру с тонкостью емкости хранилища, поэтому это не должно быть проблемой. Однако я не знаю, может ли программное обеспечение справиться с этим.

Скорее всего, мне придется уменьшать масштаб проекта, что в порядке. Идея для меня состоит в том, чтобы начать с более широкой идеи, выяснить, насколько она велика, а затем уклониться соответственно.

Следуя за вопросом Anony-Mousse: Часть моей проблемы заключается в том, что я не уверен, что правильно интерпретирую пределы ставок Twitter. Я не уверен, что это 15 запросов за 15 минут или 30 запросов за 15 минут. И я думаю, что 1 запрос получит 5000 последователей/друзей, так что вы, возможно, можете собрать 75 000 друзей или последователей каждые 15 минут, если предел составляет 15 запросов за 15 минут. Я также пытаюсь выяснить, есть ли какой-либо процесс для запроса более высоких лимитов ставок для любых исследовательских целей.

Вот где они перечисляют пределы: https://dev.twitter.com/docs/rate-limiting/1.1/limits

0

Первичного вопрос: Будет ли ограничение скорости щебетать позволяет мне делать анализ данных (...)

Да, технически осуществимый, однако это займет много времени, если вы используете только один токен доступа к API. Я имею в виду здесь, вероятно, более 6 месяцев непрерывного хода.

Чтобы быть более точным:

  • извлечение узлов (щебет пользователей) может быть сделано очень быстро, как вы будете использовать users/lookup API конечной точки, которая позволяет извлечь 100 узлов на запрос и сделать 180 запросов в 15 окно минут (за маркер доступа у вас есть)
  • извлечение краев (последующие отношения между пользователями) является медленная часть, вы будете использовать friends/ids и followers/ids API конечных точек, ограниченные на 15 запросов за 15 минут и выпускающих вы извлекаете не более 5000 друзей последователей за уникального пользователя за запрос.

Вы можете использовать метаданные узлов (описание тексты, местоположение, языки, часовые пояса) для выполнения какого-нибудь интересного анализа, даже без добыв на «график» (следуют отношениям между всем)

Произведением около это распараллеливать части экстракции, распространяя извлечение через несколько токенов доступа. Кажется совместимым со мной в отношении условий использования, если вы уважаете защищенные аккаунты.

В любом случае вы должны отфильтровывать выделение краев для знаменитостей (вы, вероятно, не хотите извлекать последователей hootsuite, их почти 6 миллионов).

отказ от ответственности: самореклама здесь: в случае, если вы не хотите развивать это самостоятельно, я мог бы сделать извлечение для вас и предоставить вам графический файл, так как я извлекаю графы twitter по адресу tribalytics. (Я прочитал this и that перед публикацией).

Я также пытаюсь выяснить, есть ли процесс запроса ограничений более высокие ставки для любого вида научно-исследовательских целей

Officially, there are no more white-listed apps с лимитами более высокие скорости, как там может быть с предыдущей версией API твиттера. Вы, вероятно, должны все же связаться с twitter и посмотреть, могут ли они помочь вам, поскольку ваша работа предназначена для академической цели.

Скорее всего, мне придется свернуть проект, который OK

Я бы посоветовал вам сократить первоначальный список из 600 пользователей, сколько вы можете. Только держите тех, кто действительно является центральным в отношении вашей темы, и чья аудитория не слишком велика. Извлечение графика местных знаменитостей даст вам график, в котором многие люди вообще не связаны с тем населением, которое вы хотите изучать.

Смежные вопросы