2009-05-06 3 views
14

У меня есть .tex-файлы, из которых я хочу получить простой текст без каких-либо латексных тегов, таких как \ section {...} или \ newpage.
Есть ли у кого-нибудь идеи о том, как достичь этого? У меня также есть .pdf-файл, но когда я просто копирую код оттуда, некоторые слова получат сцепление, которое действительно плохо.
Есть ли какой-нибудь инструмент, который вы знаете?извлечь текст из tex, удалить теги латекса

ответ

19

detex(1):

Пожалуйста, смотрите OpenDetex GitHub page последнюю версию OpenDetex. Это более современная, производная версия моего оригинального DeTeX.

Мое наследие DeTeX home page доступно here.

Если вы хотите получить исходный код detex-2.8.tar, вы можете получить его here.

+0

Добро пожаловать! –

+4

Работает только с файлами ASCII tex. Если вы используете кодированные tex-файлы с xelatex и UTF-8 с символами, отличными от ASCII, detex выводит мусор для символов, отличных от ASCII. – Lucas

+1

Это с открытым исходным кодом, он всегда может быть исправлен. –

6

opendetex доступна как для окон и Linux

скачать программу opendetex здесь
http://opendetex.googlecode.com/files/opendetex-2.8.1.tar.bz2
http://code.google.com/p/opendetex/downloads/list

Использование: http://code.google.com/p/opendetex/wiki/Usage

распакуйте его в любой каталог по вашему выбору , Скажите и извлеките его в каталог Downloads.

сделать другой каталог любого имени в этом (необязательно, но его полезно, если вы создаете). скажем, имя каталога - «my_paper». Поместите свою бумагу в каталог «my_paper». сказать свое имя бумаги project.tex

Перемещаться по пути

cd ~/Downloads/opendetex 

Выполните команду

detex -n my_paper/project.tex > out.txt 

родовой формы

detex -n full_path_to_tex_file.tex > output_text_file.txt 
Смежные вопросы