У меня есть XML-файл книги. Основное дерево имеет Кузов/Панорама/Регион/Абзац/Линия/Слово уровней. Однако меня не интересует уровень . Есть ли способ сплавить уровень линии без разрушения уровня Word в R с использованием пакета XML или любого другого пакета? После преобразования, основное дерево будет тела/Pagecolumn/Регион/Пункт/СловоКак заблокировать определенный тип узлов в XML-данных в R?
Образец данных XML приводится ниже:
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE DjVuXML>
<DjVuXML>
<BODY>
<OBJECT data="file://localhost//book1.djvu" height="1650" type="image/x.djvu" usemap="book1.djvu" width="1275">
<PARAM name="PAGE" value="book1_001.djvu"/>
<PARAM name="DPI" value="300"/>
<HIDDENTEXT>
<PAGECOLUMN>
<REGION>
<PARAGRAPH>
<LINE>
<WORD coords="1,2,3,4,5">Title</WORD>
</LINE>
</PARAGRAPH>
</REGION>
</PAGECOLUMN>
<PAGECOLUMN>
<REGION>
<PARAGRAPH>
<LINE>
<WORD coords="30,564,90,545,559">This</WORD>
<WORD coords="97,559,109,545,559">is</WORD>
<WORD coords="115,564,162,545,559">a</WORD>
</LINE>
</PARAGRAPH>
<PARAGRAPH>
<LINE>
<WORD coords="30,589,80,570,584">First</WORD>
<WORD coords="88,584,115,570,584">line</WORD>
<WORD coords="123,584,146,574,584">is</WORD>
</LINE>
<LINE>
<WORD coords="30,614,90,598,609">Second</WORD>
<WORD coords="97,609,143,595,609">line</WORD>
<WORD coords="148,614,168,595,609">is</WORD>
</LINE>
<LINE>
<WORD coords="30,640,56,626,640">Third</WORD>
<WORD coords="63,640,95,626,640">line</WORD>
<WORD coords="101,640,128,626,640">is</WORD>
</LINE>
</PARAGRAPH>
</REGION>
</PAGECOLUMN>
</HIDDENTEXT>
</OBJECT>
<MAP name="book1.djvu"/>
</BODY>
</DjVuXML>
Спасибо.
Спасибо! Это выглядит великолепно! пару вопросов, я не могу установить его для окон, мне нужно скомпилировать его из исходного кода? Если я понимаю ваш код, в этом случае код все еще работает с этим преобразованием ' ', я имею в виду без @ *? –
agstudy
Unfortunatley Я не думаю, что версия для Windows доступна. Первый шаблон - это то, что называется преобразованием идентичности http://en.wikipedia.org/wiki/Identity_transform. Это копирует все атрибуты и узлы. Если есть более подходящий шаблон для определенного элемента, то xslt будет использовать это вместо этого. Мы объявили шаблон более актуальным для LINE. Это ничего не делает. Таким образом, для всех узлов и атрибутов, кроме LINE, преобразование выполняет копию. Результатом является исходный XML минус части LINE. – user1609452
Спасибо. Я также использую R для окон.Я попытался установить из источника, используя RStudio, но я получил эту ошибку: * Пожалуйста, определите LIB_XSLT *. – imriss