У меня есть веб-приложение, которое позволяет пользователям загружать текстовые документы (около 2-3000 слов) и таблицу базы данных с примерно 50 000 фраз (в виде строк).Найти фразы в одном документе
Как я могу наиболее эффективно выяснить, какие фразы появляются в каждом из этих загруженных документов? (т. е. что-нибудь лучше, чем грубая, заставляя его проверять каждую фразу отдельно?)
Поток веб-приложений в идеале должен быть таким, чтобы при загрузке страницы после загрузки приложение узнало, какие фразы он нашел в этом документе.
В идеале я бы хотел найти решение в рубине, но предложения по другим технологиям или структурам данных или что-то было бы реальной помощью.
Вам нужно проверить это более одного раза? – Stefan
Мне кажется, что концептуально у вас нет другого способа, кроме проверки каждой фразы отдельно. Вы можете использовать некоторые оптимизационные трюки, хотя (индексы и еще что-то), чтобы сделать индивидуальные проверки быстрее. –
@ Вопрос Стефана наиболее уместен. Если вам нужно сделать это только один раз, перетащите его и назовите его днем. Если учесть это, еще один уместный вопрос: насколько велик ваш документ? Для небольшого документа (например, «Комедия ошибок Шекспира») лучший подход может отличаться от большого документа (например, полные произведения Шекспира). –