У меня есть простой вопрос. Я делаю легкий обход, поэтому каждый новый контент приходит каждые несколько дней. Я написал токенизатор и хотел бы использовать его для некоторых целей интеллектуального анализа. В частности, я использую инструмент моделирования темы Малле, и один из каналов заключается в том, чтобы токенизировать текст в токенах, прежде чем дальнейшая обработка может быть выполнена. С количеством текста в моей базе данных требуется значительное количество времени, чтобы токенизировать текст (я использую regex здесь).Хранение текстового текста в db?
Как таковой, является ли нормой хранить токенированный текст в db, чтобы токенизированные данные могли быть легко доступны, а токенизация может быть пропущена, если они мне нужны для других целей интеллектуального анализа текста, таких как моделирование темы, маркировка POS? Каковы недостатки такого подхода?
Вы недостаточно четко описали свой подход, чтобы получить осмысленный ответ. Можете ли вы привести примеры ввода и вывода процесса токенизатора и почему вы считаете, что это узкое место. –
@Terrel, я отредактировал мой вопрос. Надеюсь, теперь это станет яснее. – goh
по вашим другим вопросам, у меня есть лучшая картина того, что вы пытаетесь выполнить. Регулярные выражения, о которых вы спрашивали, очень медленны, поэтому я думаю, что существующие токенизаторы (как было предложено dmcer) будут делать это быстрее. Feedparser и beautifulsoup - лучшие решения python для получения текста из блогов для подачи в токенизатор. И да, я хотел бы кэшировать вывод этой фазы. –