Вы, кажется, имеете понимание математики за этим методом, но вот простой пример, который может дать вам некоторую интуицию, почему используется этот метод: представьте, что вы находитесь в классе, в котором участвуют 100 учеников. Каждый студент сидит за письменным столом, а столы организованы таким образом, что есть 10 строк и 10 столбцов. 1 из 100 студентов имеет приз, который вы можете получить, но вы должны догадаться, какой студент должен получить приз. Улов в том, что каждый раз, когда вы догадываетесь, выигрыш уменьшается в цене. Вы можете начать с того, чтобы спросить каждого студента отдельно, есть ли у них выигрыш. Однако изначально у вас есть только вероятность угадывать в 1/100, и вполне вероятно, что к тому времени, когда вы найдете приз, это будет бесполезно (подумайте о каждой догадки как ветке в дереве решений). Вместо этого вы можете задать широкие вопросы, которые значительно уменьшают пространство поиска с каждым вопросом. Например: «Является ли студент где-то в строках 1, хотя 5?» Является ли ответ «Да» или «Нет», вы уменьшили количество потенциальных ветвей в своем дереве наполовину.
В соответствии с вашими объяснениями вы можете объяснить, почему нужно использовать функцию журнала? – kamaci
Если вы заметили, что 'p (+) = 1 - p (-)', имеющая функцию «log» в уравнении, дает ему свойство nice, что функция имеет свой минимум (ноль), когда 'p (+)' нуль или один, и имеет максимум (1), когда 'p (+)' равно 1/2 (т. е. когда оба класса одинаково вероятны). Нет необходимости в функции «log» в самой формуле. Вы можете использовать альтернативную симметричную функцию, которая равна нулю, когда 'p (+)' равно нулю или один, имеет максимальный максимум 0,5 и монотонно уменьшается с расстоянием от p (+) = 0,5'. – bogatron