@Elad Meidar, мне нравится ваш вопрос, и я нашел решение:
SELECT SUM(total_count) as total, value
FROM (
SELECT count(*) AS total_count, REPLACE(REPLACE(REPLACE(x.value,'?',''),'.',''),'!','') as value
FROM (
SELECT SUBSTRING_INDEX(SUBSTRING_INDEX(t.sentence, ' ', n.n), ' ', -1) value
FROM table_name t CROSS JOIN
(
SELECT a.N + b.N * 10 + 1 n
FROM
(SELECT 0 AS N UNION ALL SELECT 1 UNION ALL SELECT 2 UNION ALL SELECT 3 UNION ALL SELECT 4 UNION ALL SELECT 5 UNION ALL SELECT 6 UNION ALL SELECT 7 UNION ALL SELECT 8 UNION ALL SELECT 9) a
,(SELECT 0 AS N UNION ALL SELECT 1 UNION ALL SELECT 2 UNION ALL SELECT 3 UNION ALL SELECT 4 UNION ALL SELECT 5 UNION ALL SELECT 6 UNION ALL SELECT 7 UNION ALL SELECT 8 UNION ALL SELECT 9) b
ORDER BY n
) n
WHERE n.n <= 1 + (LENGTH(t.sentence) - LENGTH(REPLACE(t.sentence, ' ', '')))
ORDER BY value
) AS x
GROUP BY x.value
) AS y
GROUP BY value
Вот полная рабочей скрипка: http://sqlfiddle.com/#!2/17481a/1
Сначала мы делаем запрос, чтобы извлечь все слова, как объяснено here по @peterm (следуйте его инструкциям, если вы хотите настроить общее количество обработанных слов). Затем мы преобразуем это в подзапрос, а затем получаем значение каждого слова, а затем сделаем еще один запрос в верхней части этого слова для GROUP BY
не сгруппированных слов, в которых могут присутствовать сопровождающие знаки. т.е.: hello = привет! с REPLACE
Возможный дубликат [Подсчитать частоту каждого слова] (http://stackoverflow.com/questions/22410458/count-the-frequency-of-each-word). Этот вопрос стареет, но в другом вопросе было принято решение. – RandomSeed