У меня есть одна проблема «оптимизации», и я действительно не знаю, каким образом я должен отправиться в путь. Вот описание моей проблемы:
У меня есть корпус с большим количеством текстовых предложений. Теперь мне нужно получить минимум предложений для записи (в виде аудиофайлов), но в то же время максимизировать количество предложений в исходном корпусе, сформированном из записанных предложений, точнее из записанных слов.
Очень короткий пример того, что мне нужно сделать:
Корпус:
- черная собака
- серый кот
- большая собака
- серая мышь
- большой мышь
Пример минимальных предложений для покрытия максимум оригинального корпуса:
- черная собака
- большой мыши
- серый кот
От 3 предложений (и их слова) выше, мы можем сформировать остальные предложения в корпусе. Конечно, я ищу какой-то метод, оптимально вычисляемый, потому что мой корпус содержит тысячи предложений. Знаете ли вы какой-либо метод, подходящий для этой проблемы?
Спасибо за ваши ответы!
Morphid
Похоже, вам нужен дополнительный параметр здесь, чтобы указать, сколько вы хотите, чтобы обменять лишнее слово в своем минимальном списке, чтобы покрыть больше слов в корпусе. Напр. почему бы не «черная собака»? – samgak
Звучит как проблема с обложкой: https: //en.wikipedia.org/wiki/Set_cover_problem – m69
Спасибо за ваши ответы :-) @samgak Мне нужно записать точные фразы из моего корпуса, потому что мне нужно сохранить их формат (из-за будущего эксперимента, а не «генерировать» минимум предложений для покрытия всего corpus) – Morphid