2015-05-20 4 views
1

Я ищу делать противоположное тому, что описано здесь: Tools for text simplification (Java) Finding meaningful sub-sentences from a sentenceЕсть ли алгоритм для объединения нескольких предложений в более сложный?

То есть, взять два простых предложения и объединить их в качестве сложного предложения.

Есть ли алгоритмы для этого?

+0

Зачем вам нужны сложные предложения? Что такое домен (например, предоставить примеры простых предложений и желаемых соединений)? –

+0

Мне любопытно - почему вы хотите это сделать? Я не слышал о каких-либо подходах к объединению предложений, хотя некоторые (но довольно немногие) попытки text summarisation попытаются построить предложения из бит и фрагментов (фраз или n-граммов), найденных в документе. Конечно, вы можете просто соединить предложение с 'и', но если вы будете стремиться к более сложному подходу, используя подчиненные предложения с соответствующим соединением ("потому что", "while", "хотя" ...) или даже гнездо с относительным Это будет непросто. – lenz

ответ

1

Я особенно уверен, что вы не сможете составлять предложения, как в примере из связанного вопроса (John played golf. John was the CEO of a company. -> John, who was the CEO of a company, played golf), потому что для этого требуется такое понимание языка, которое слишком далековато отныне.

Итак, кажется, что лучшим вариантом является точная замена точки запятой и конкатенация простых предложений (если вам нужно выбрать предложения, которые будут усугубляться из текста, вы можете попробовать простые эвристики, например, приблизить семантическое сходство по количеству общих слов или инструменты, подобные тем, которые основаны на WordNet). Наверное, в большинстве случаев человеческие читатели могут вывести пропущенное соединение из контекста.

Конечно, вы могли бы разработать более сложные решения, но для этого требуется узкий домен (например, все предложения имеют сходную структуру) или инструменты, которые могут определять отношения между предложениями, например. отношения причины и следствия. Я не знаю таких инструментов и сомнений в их существовании, потому что этот уровень (предложения и фразы) гораздо более разнообразен и редок, чем уровень слов и словосочетаний.

Смежные вопросы