Трудно дать вам ответ, не зная точно, что вы хотите сделать. Наивный ответ на вашу проблему будет разбит текст на знаки препинания и будет использовать структуру данных для хранения счетчиков каждого предложения в вашем тексте, увеличивая счетчик для каждого предложения, которое вы анализируете из текста.
Вы можете использовать, например, очередь приоритетов, чтобы сохранить предложения, отсортированные по его счетчикам. Затем вы можете удалить максимальный элемент n раз для n наиболее распространенных предложений или поп-предложений до тех пор, пока счетчик больше числа, которое вы хотите.
Однако, если вы не хотите точных предложений, вам придется изменить то, что вы храните в очереди приоритетов, или вам придется использовать другой алгоритм в целом.
Надеюсь, это по крайней мере помогает!
этот вопрос очень общий – ant