Существует множество парсеров и лексеров для скриптов (например, структурированных компьютерных языков). Но я ищу тот, который может сломать (почти) неструктурированный текстовый документ в более крупные разделы, например. главы, абзацы и т. д.lexers/parsers for (un) структурированные текстовые документы
Это относительно легко для человека, чтобы идентифицировать их: где Оглавление, подтверждения или где начинается основной орган, и можно создать системы на основе правил, чтобы идентифицировать некоторые из них (такие как пункты).
Я не ожидаю, что это будет идеально, но знает ли кто-нибудь о таком широком «блочном» лексере/парсере? Или вы могли бы указать мне направление литературы, которое может помочь?
я забыл о POD! Мне действительно нужно, чтобы это была комбинация POD, уценки и реструктурированного текста. Они определенно дали мне несколько указателей. Мне кажется, что мне придется строить свои собственные. – wilson32
У вас уже есть текст или вы хотите начать с нуля? Возможно, вы можете преобразовать свой существующий документ (если он есть) в ReSt или что-то еще и использовать парсер для акций? –
Беда в том, что мы понятия не имеем, как будет выглядеть новый входящий документ.Мы знаем, что процесс, который мы предполагаем, будет только полуавтоматическим. Я подозреваю, что будет легче собрать анализируемый документ из копии оригинала, который мы затем будем использовать в качестве источника для любого соответствующего форматирования. – wilson32