Это мой первый раз, когда вы занимаетесь НЛП, поэтому, пожалуйста, извините мое невежество. Я ищу способ извлечения интересов/симпатий/хобби из социальных профилей пользователей. Вот пример, в котором все интересы/любит/хобби жирным шрифтом:Извлечение интересов пользователей из социальных профилей
«Я считаю себя довольно разнообразный характер ... Я профессиональный рестлер, но я бы пулю для ВАЛЛ •. Я тренируюсь, как геноцид машине один человек в тренажерном зале , но я плакал «Армагеддон.» Я буду голову челку к AC/DC, и я серьезно с учетом получения Легенда о Zelda татуировка. Я 4 20 людей. Я нравится партии его с братства толпы одна ночь, тусоваться с мои Burning Man друзья следующий, играть Halo и Мир Warcraft следующий, и варенье с друзьями, которые Арен» t младше 40 следующий. Мой младший друг 16, мой старший друг 66. Я буду петь караоке в барах, и я моих друзей коллективный психиатр/плечо.»
Профили представляют собой простой текст. Нет никаких мета-тегов или идентификаторов, связанных с любым из них, это всего лишь абзац текста.
Моя основная идея заключалась в том, чтобы взять каждое существительное и сопоставить его с Freebase, чтобы узнать, является ли это деятельностью/художником/фильмом/книгой и т. Д. Проблема в том, что, хотя большинство упомянутых объектов будут вещами, которые понравятся пользователю, она также упомянет вещи, которые она не, как и у меня нет никаких средств различения 2.
У меня 2 вопроса:
- Что подполе НЛП я должен быть глядя на? Было бы весьма полезно оценить некоторые алгоритмы/методы/авторы googleable.
- Насколько тяжело эта проблема?
Спасибо!
К сожалению, нет никаких тегов или api. Это буквально абзацы текста. Спасибо за совет NLTK, я люблю python. Я пойду. – stackOverlord