2009-09-23 2 views
4

Я запустил веб-сайт, который позволяет пользователям писать блог-пост, я бы очень хотел обобщить написанный контент и использовать его, чтобы заполнить, например, файл <meta name="description".../>.Как автоматически вычитать пользовательский контент?

Какие методы я могу использовать для автоматического суммирования/описания содержимого созданного пользователем контента?
Есть ли какие-либо (предпочтительно свободные) методы, которые решили эту проблему?

(я видел других сайты просто скопировать первое 100 или около того слова, но это поражает меня как неоптимальное решение.)

ответ

5

Подумайте о задаче обобщения как о вызове «выбрать наиболее важные предложения» из документа.

Способ, описанный в пункте The Automatic Creation of Literature Abstracts H.P. Лун (1958) описывает наивный метод, который действительно хорошо работает. Попробуйте сделать снимок.

Если ваш сайт находится в кодировке Python, этот алгоритм с использованием NLTK (Natural Language Toolkit) - забавная задача.

+0

К сожалению, он находится в PHP (+1) – Jacco

1

Я мог бы попробовать использовать механическую турку или любое количество других опций краудсорсинга.

0

Это граничит с искусственным интеллектом, поэтому там не будет «легкого» решения, но есть продукты, которые нацелены на эту проблему.

Отъезд Copernic Summarizer, для одного.

1

Не простая задача ... Вы должны искать статьи или книги на «extractive summarization»

Несколько стартеров может быть:

Книги:

Статьи:

+1

В документе «Как идентифицировать суть текста» также имеется доступное программное обеспечение: http://www.icmc.usp.br/~taspardo/GistSumm.htm –

+0

Кроме того, проект MEAD (http: //www.summarization.com/mead/) некоторыми людьми в Мичиганском университете, похоже, что у него есть доступное программное обеспечение, хотя сейчас ссылка отсутствует. –

+0

Другие ссылки мертвы, поэтому текст «как определить суть текста» можно найти здесь: http://www.icmc.usp.br/~taspardo/I2TS2002-PardoEtAl.pdf – HappyTimeGopher

4

Сделать это предсказуемо.

С точки зрения пользователей просто использование первого абзаца неплохое. В некоторых случаях любая автоматизация неизбежно падает. Поэтому я предлагаю отобразить первый абзац (возможно, усекающийся в какой-то момент) в виде сводки и предлагать возможность переопределить его по необязательному полю.

0

Именные обычно, как правило, являются важными элементами предложения. Выбор предложения (ов) с высокой плотностью именных фраз может дать хорошее резюме. Вы можете получить существительные фразы, используя теггер POS.

Для хорошего резюме желательно, чтобы это содержательное предложение. Чтение сломанного предложения слегка раздражает.

0

В качестве альтернативы, когда автор сообщения в статье, автор может выделить то, что ключевые слова, которые могут быть использованы в описании, которое затем может быть автоматически поставить в теге метаописания.

+0

Я думал об этом варианте, но я хотел бы, чтобы система была максимально простой для пользователя. Таким образом, этот вариант невозможен. (Это здорово для платных взносов и всего, но не для моей аудитории) – Jacco

Смежные вопросы