2010-07-08 2 views
1

Я искал решение с открытым исходным кодом, предлагающее категорию, заданную вопросом или текстом.Предложить категорию для фрагмента текста

Например, «кто такая Леди Гага?» вероятно, вернут «Развлечения», «Музыка» или «Знаменитость».

«Сколько бейсбола для бейсбола?» даст мне «Бейсбол» или «Спорт».

Категоризация не обязательно должна быть идеальной, но должна быть какой-то близкой.

Также есть где угодно, я могу получить список популярных категорий?

ответ

0

Не так много ответа, но, возможно, это классифицировать словарь поможет:

http://www.provalisresearch.com/wordstat/WordNet.html

Я полагаю, вы могли бы извлечь необычные слова из строки, искать их в категоризированном словаре, и вернуть которые получают большинство матчей на ваших условиях. Трудно заниматься ссылками на поп-культуру, например «Lady Gaga», хотя ... возможно, вы можете выполнить поиск Google и проанализировать результаты этого.

3

Это document classification problem - ваш «документ» - это просто запрос или текст.

Сначала вам нужно решить, что такое список возможных категорий. «Кто такая Леди Гага?» может быть Entertainment, Celebrity, Questions-In-English, Biography, People и т. д. Затем вы примените структуру принятия решений, чтобы назначить оценку для каждой категории для текста. Самый высокий балл - это его категория - до тех пор, пока она выше порога шума, и не существует категории второго места, которая слишком близка к дифференциации. Рамки принятия решений могут включать такие подходы, как байесовская сеть или набор пользовательских правил.

Некоторые проекты с открытым исходным кодом, которые реализуют классификаторов включают в себя:

0

Другие сделали совсем немного работы от вашего имени, поэтому я бы предложил просто использовать som что-то вроде OpenCalais API. Для API существует оболочка python: http://code.google.com/p/python-calais/.

«Кто такая Леди Гага?» кажется слишком коротким для текста, чтобы дать достойный ответ. Однако, если вы взяли на себя труд сделать двухэтапный процесс и захватить первый абзац из wikipedia для Lady Gaga, а затем предоставить это API OpenCalais, вы получите очень хорошие результаты.

Вы можете быстро проверить это, просто вырезав и вставив первый абзац из википедии в OpenCalais viewer. Результатом является классификация в теме «Культура развлечений» со 100% -ной оценкой достоверности.

Точно так же, например, бейсбол возвращается «спорт» в качестве темы с дополнительными социальными тегами «отдыха», «бейсбол» и т.д.

Редактировать Вот еще одна мысль вызвана использованием Кале социальных тегов: отправка URL-адрес википедии для Lady Gaga вкусным API с

curl -k https://user:[email protected]/v1/posts/suggest?url=http://en 
.wikipedia.org/wiki/Lady_gaga 

возвращается <?xml version="1.0" encoding="UTF-8"?> <suggest> <recommended>music</recommended> <recommended>wikipedia</recommended> <recommended>wiki</recommended> <recommended>people</recommended> <recommended>bio</recommended> <recommended>cool</recommended> <recommended>facts</recommended> <popular>music</popular> <popular>gaga</popular> <popular>ladygaga</popular> <popular>wikipedia</popular> <popular>lady</popular>

и т.д. Должно быть достаточно легко igno re wikipedia/wiki type entries.

Смежные вопросы