Я хочу проанализировать файлы 10-K (финансовые отчеты фирм). Пример Apple можно найти here (ищите файл .txt). Теперь я читал этот research paper (смотрите на странице 30-31) о том, как разбирать эти файлы. Первый шаг описывается как удаление всех ASCII-кодированных сегментов ... вот что я хочу выяснить, как их удалить.Удалить ASCII-закодированные blob-файлы из .txt-файлов
Я вижу несколько вопросов о StackOverflow о том, как удалить коды, отличные от ASCII, но это другое. ASCII-кодированные сегменты: все сегменты документов с <TYPE>
тегами GRAPHIC
, ZIP
, EXCEL
и PDF
- Я хочу их удалить.
Так что, если я загрузить текстовый файл следующим образом:
fil = open('F:\\file.txt','r')
x = fil.read()
Как я могу удалить все ASCII, закодированные сегменты из этого текстового файла? Чтобы удалить теги HTML, я использую процедуру here, но как насчет сегментов ASCII Encoded?
Что такое "ASCII tag"? –
@ IgnacioVazquez-Abrams Извините, я обновил свой вопрос. Я не имел в виду теги, как в тегах HTML. – Plug4
Приведите пример! –