Другие сделали совсем немного работы от вашего имени, поэтому я бы предложил просто использовать som что-то вроде OpenCalais API. Для API существует оболочка python: http://code.google.com/p/python-calais/.
«Кто такая Леди Гага?» кажется слишком коротким для текста, чтобы дать достойный ответ. Однако, если вы взяли на себя труд сделать двухэтапный процесс и захватить первый абзац из wikipedia для Lady Gaga, а затем предоставить это API OpenCalais, вы получите очень хорошие результаты.
Вы можете быстро проверить это, просто вырезав и вставив первый абзац из википедии в OpenCalais viewer. Результатом является классификация в теме «Культура развлечений» со 100% -ной оценкой достоверности.
Точно так же, например, бейсбол возвращается «спорт» в качестве темы с дополнительными социальными тегами «отдыха», «бейсбол» и т.д.
Редактировать Вот еще одна мысль вызвана использованием Кале социальных тегов: отправка URL-адрес википедии для Lady Gaga вкусным API с
curl -k https://user:[email protected]/v1/posts/suggest?url=http://en
.wikipedia.org/wiki/Lady_gaga
возвращается <?xml version="1.0" encoding="UTF-8"?> <suggest> <recommended>music</recommended> <recommended>wikipedia</recommended> <recommended>wiki</recommended> <recommended>people</recommended> <recommended>bio</recommended> <recommended>cool</recommended> <recommended>facts</recommended> <popular>music</popular> <popular>gaga</popular> <popular>ladygaga</popular> <popular>wikipedia</popular> <popular>lady</popular>
и т.д. Должно быть достаточно легко igno re wikipedia/wiki type entries.