2012-03-04 4 views
2

Это мой первый раз, когда вы занимаетесь НЛП, поэтому, пожалуйста, извините мое невежество. Я ищу способ извлечения интересов/симпатий/хобби из социальных профилей пользователей. Вот пример, в котором все интересы/любит/хобби жирным шрифтом:Извлечение интересов пользователей из социальных профилей

«Я считаю себя довольно разнообразный характер ... Я профессиональный рестлер, но я бы пулю для ВАЛЛ •. Я тренируюсь, как геноцид машине один человек в тренажерном зале , но я плакал «Армагеддон.» Я буду голову челку к AC/DC, и я серьезно с учетом получения Легенда о Zelda татуировка. Я 4 20 людей. Я нравится партии его с братства толпы одна ночь, тусоваться с мои Burning Man друзья следующий, играть Halo и Мир Warcraft следующий, и варенье с друзьями, которые Арен» t младше 40 следующий. Мой младший друг 16, мой старший друг 66. Я буду петь караоке в барах, и я моих друзей коллективный психиатр/плечо.»

Профили представляют собой простой текст. Нет никаких мета-тегов или идентификаторов, связанных с любым из них, это всего лишь абзац текста.

Моя основная идея заключалась в том, чтобы взять каждое существительное и сопоставить его с Freebase, чтобы узнать, является ли это деятельностью/художником/фильмом/книгой и т. Д. Проблема в том, что, хотя большинство упомянутых объектов будут вещами, которые понравятся пользователю, она также упомянет вещи, которые она не, как и у меня нет никаких средств различения 2.

У меня 2 вопроса:

  1. Что подполе НЛП я должен быть глядя на? Было бы весьма полезно оценить некоторые алгоритмы/методы/авторы googleable.
  2. Насколько тяжело эта проблема?

Спасибо!

ответ

1

Во-первых, если только использование NLP для этого не является целью, проверьте свой проблемный домен, чтобы убедиться, что вы можете полностью его избежать.

Например:

  • сделать эти профили метки (поставляются либо с помощью сайта или по пользователя)?

  • , что делает сайта API необходимо сделать доступными (при условии, что, как вы имеют доступ к этой информации, если вы выскабливание ее, то это вовсе не конечно применять)? Хороший пример, Facebook. если вы читаете сообщения пользователя, вы увидите слова типа «борец», «караоке» и т. д.но если вы посмотрите на , какие поля отображаются через Graph API, вы увидите, что в этих действиях почти всегда есть связанный FB ID.

я не являюсь специалистом в этой области, но я могу рекомендовать несколько средств, направленных на NLP и которые являются доступными для неспециалиста или новичка. Первый - это text processing API. Эта простая веб-служба использует REST и JSON IO. Он свободен и, кажется, имеет довольно большой предел скорости.

Этот API, как представляется, в значительной степени полагаться на отличном Natural Language Tooolkit (NLTK), который является зрелой стабильной библиотекой в ​​питоне, который включает в себя модули, направленные на проблемы в вашем вопросе, например, Настроение анализ, мечения и Chunk Добычи и т.д.

Какой конкретный поддомен наиболее подходит для решения вопроса в OP? Я не знаю, но я подозреваю, что есть где-то в NLTK-модуле, который делает то, что вам нужно. Надеюсь, что этот модуль, надеюсь, просто делит API Documentation (который организован модулем); прочитав раздел Getting Started, в котором содержится отличный обзор модулей NLTK, а также демонстрации для всех из них.

+0

К сожалению, нет никаких тегов или api. Это буквально абзацы текста. Спасибо за совет NLTK, я люблю python. Я пойду. – stackOverlord

Смежные вопросы