я получил набор строк, содержащей слово каскадных кодов, такое как следующие: «Вы имели в виду»Tokenizing каскадной строки
longstring (two English words)
googlecloud (a name and an English word)
Когда я печатаю эти терминов на Google, он распознает слова («длинная строка», «облако Google»). Мне нужна аналогичная функциональность в моем приложении.
Я рассмотрел параметры, предоставленные Python и ElasticSearch. Все найденные множители основаны на пробелах, верхнем регистре, специальных символах и т. Д.
Каковы мои варианты, если строки указаны на английском языке (но они могут содержать имена)? Это не должно быть связано с конкретной технологией.
Могу ли я это сделать с помощью Google BigQuery?