2

Я просматривал видео с введением Удипса в класс AI, и я не могу обернуть вокруг себя одну идею.Как предположение Наивного Байеса делает сегментирование менее интенсивным с точки зрения вычислительной мощности?

Сообщается, что для строки длины n 2 n-1 возможны сегменты. Когда мы берем наивное байесовского предположение лучшей сегментация s * может быть определена как тот, который максимизирует

продукта (P (W я))

можно написать лучший такие же, как:

сек * = Argmax сек Р (first_word) * S * (rest_of_words)

я недеформированной что выше верно. Инструктор сказал, что из-за вышеприведенного уравнения нам не нужно перечислять все 2 n-1. Я не могу понять причину этого.

Я также понимаю, что поиск P (single_word) прост, чем изучение одной и той же проблемы для n-граммов, что также поможет вычислить.

ответ

0

Поскольку мы работаем с одиночными словами, нам нужно выбрать одно слово за раз, а не все их комбинации, что уменьшит пространство поиска. Рассмотрим строку:

"Iliketennis"

Строка имеет 11 символов, при этом 2^11 = 2048 случаев. Если мы начнем рассматривать наиболее вероятное первое слово, это может быть:

«I», «Il», «Ili», «Ilik» и т. Д. 11 возможных случаев. Теперь, когда у нас есть все возможные первые слова, мы ищем наиболее вероятный:

  • P ("I") = 0,4,
  • P ("Il") = 0.0001,
  • P (» Или ") = 0,002,
  • P (" Илик ") = 0,00003
  • ...

и так далее.

Выяснить, что наиболее вероятным является «я», мы принимаем это как первое слово, и теперь мы можем сосредоточиться на оставшихся 10 символов/дел:

«liketennis»

Повторяя процесс у вас будет теперь 10 возможных случаев для слова, с вероятностью:

  • Р ("л") = 0,05,
  • P ("LI") = 0.0001,
  • P ("ЛИК") = 0,0002,
  • P ("Лик") = 0,00003
  • P ("как") = 0,3
  • ...

и так далее.

Итак, мы выбираем «как». Теперь поиск повторяется для последних 6 символов. Не записывая снова процесс, «теннис» подбирается и никаких символов не остается, поэтому сегментация заканчивается.

Поскольку мы сделали анализ словампереключает, возможности мы Рассматриваемые

11 + 10 + 6 = 27

много гораздо меньше, чем охватывающий более 2048 возможных расколов.

+0

Что происходит в случае, если мы получим первое слово неправильно. Рассмотрим «intheworld». Правильное первое слово «in». Предположим, что согласно нашим данным P («i»)> P («in»). Я бы предположил, что это значительно увеличивает количество случаев, как нам приходится отступать? –

+0

Что еще важно, как мы узнаем, что мы должны отступить, если не будем пытаться использовать каждое первое слово. Это будет то же самое, что и все. Поправьте меня, если я ошибаюсь. Благодарю. –

+0

@TarunKumar, насколько мне известно, в простейшем подходе и в том, что описано в упражнении, упомянутом в вопросе, стратегия возврата не предусмотрена. Но все же я не думаю, что нужно все попробовать: вы могли бы также применять наивные заливы, начиная с определения последнего слова и рекурсивно на предшествующих символах. Сделано, что вы можете сравнить два решения и посмотреть лучший (или даже смешать их).Обратите внимание, что в вашем примере «intheworld» будет правильно разделен. –

0

Я предлагаю видео по Mathematicalmonk, это видео: https://youtu.be/qX7n53NWYI4?t=9m43s

Он объясняет, что без условного предположения независимости (Naive Байеса), вам нужно гораздо больше образцов для оценки вероятности, когда вы узнаете из данных. Но если вы предполагаете (даже если это неверно) независимость между функциями, при меньших данных обучения вы можете оценить распределение вероятности.

Почему? давайте сделаем это просто, без наивных предположения, вероятность 2-мерного вектора признаков для прогнозирования y будет:

without naive assumption

Допуская только двоичные значения для x_1 и x_2 функции, вы должны хранить эти стоимости на y, извлеченная из данных выборки:

P(x_1=0|y), P(x_1=1|y), P(x_2=0|x_1=0,y), P(x_2=0|x_1=1,y), P(x_2=1|x_1=0,y), P(x_2=1|x_1=1,y) 

в другом слове, вам нужно хранить 2^1+2^2 параметров. Вы можете обобщить его г-мерного двоичного вектора признаков:

generalized without naive

Если вы наивные предположения и предположим, эти функции являются независимыми, вы будете иметь эту формулу:

naive assumption

который означает, что вам необходимо сохранить эти параметры только на y, чтобы предсказать все возможные X:

P(x_1=0|y), P(x_1=1|y), P(x_2=0|y), P(x_2=1|y) 

Или обобщают его:

generalized with naive

Смежные вопросы