2010-05-28 2 views
4

Я делаю это для удовольствия (или как 4chan говорит «для lolz»), и если я узнаю что-то по пути все лучше. Я прошел курс AI почти 2 года назад, и мне это очень понравилось, но мне удалось все забыть, поэтому это способ обновить это.Создание интеллектуального текстового генератора

В любом случае, я хочу иметь возможность генерировать текст с учетом набора входов. В основном это будет читать входные данные форума (или, возможно, твиты Twitter), а затем генерировать комментарий, основанный на учебе.

Теперь самым простым способом было бы использовать Markov Chain Text Generator, но я хочу что-то немного более сложное, чем это, поскольку MKC в основном узнает только по порядку слов (какое слово, скорее всего, появится после слова x с учетом текста ввода) , Я пытаюсь понять, есть ли что-то, что я могу сделать, чтобы сделать его немного более умным.

Например, я хочу, чтобы сделать что-то вроде этого:

  • Learn из большого выбора должностей в доске объявлений, но не нагрузить слишком много
  • Для каждой должности:
    • Учитесь у других комментариев в этой должности и взвешивать эти входы выше
    • GENERATE комментарий и пост
    • Посмотреть реакцию, что других пользователей к у наш пост был. Если вы положите его положительно, вы делаете больше сообщений, похожих на сделанные, и наоборот, если они отрицательны.

Это взвешивание и обучение на ошибках часть, что я не знаю, как реализовать. Я думал о Artificial Neural Networks (главным образом потому, что я помню, как наслаждался этой главой), но насколько я могу судить, это в основном используется для классификации вещей (т. Е. С учетом конечного набора вариантов [x1 ... xn], который x представляет собой данный ввод) генерировать что угодно.

Я даже не уверен, что это возможно, или если это то, что я должен изучать/выяснять. Какой алгоритм лучше всего подходит для этого?

Для тех, кто обеспокоен тем, что я буду использовать это как бот для спама или предоставления плохих ответов на SO, я обещаю, что не буду использовать это для предоставления (плохого) совета или спама для получения прибыли. Я определенно не буду публиковать это бессмысленные мысли о SO. Я планирую использовать его для собственного развлечения.

Спасибо!

+0

Являясь вопиющим самостоятельным подключением, я создал генератор «спам» на основе Markov на StackApps. Это, конечно, не «умный» в любом смысле. Я все еще жду, чтобы узнать, использует ли он его, чтобы публиковать вопросы/ответы здесь. :) [Flack Overstow] (http://stackapps.com/questions/306/flack-overstow-generate-spam-from-trilogy-posts) –

+2

Эти ребята: http://pdos.csail.mit.edu/scigen/имеют отличный текстовый генератор для статей по компьютерной науке, и их код является общедоступным. – Amichai

+1

Это похоже на хорошее начало. Тем не менее, Марковские цепи, похоже, очень забавны: «Если я получу новую клавиатуру - почему еще не здорово признаться, что вы использовали телевизор из Liberty City?« – encee

ответ

2

Я тоже думал о чем-то подобном. Я думаю, что это может значительно улучшить использование грамматического анализатора вместе с Марковским цепным генератором. Затем MC можно обучить текстовым фразам (глагол «диск» часто вместе с объектом «автомобиль») и производить грамматически правильные предложения.

+0

Это хорошая идея, и это будем надеяться выпустить более грамматически правильные предложения, которые имеют больше шансов на работу, но я искал, чтобы обучить алгоритм так, чтобы на основе данных обучения он скорее выражал предложения, которые делают sen как таковые. Таким образом, идея заключалась в том, что Марковская цепочка создает предложение, которое я могу решить, если оно положительное или отрицательное, и на основании этого оно может перегрузить данные обучения. Но проблема в том, что тогда она будет иметь тенденцию к тем же самым предложениям большую часть времени. Я не хочу точно такой же, но только той же структуры или смысла. – encee

Смежные вопросы