На этом URL: http://www.ontobee.org/ontology/HP?iri=http://purl.obolibrary.org/obo/HP_0001065PHP - Преобразование XML/RDF в HTML
Когда я проверять элементы с Chrome, я могу увидеть HTML:
<div xmlns="http://www.w3.org/1999/xhtml" id="mainbody">
<link href="http://www.ontobee.org/public/css/ontology.css" rel="stylesheet" type="text/css" />
<script src="http://www.ontobee.org/public/js/ontobee.ontology.js"></script>
<h3 class="title">
<a href="http://www.ontobee.org/ontology/HP"> human phenotype ontology</a>
</h3>
<form action="http://www.ontobee.org/search" method="get" id="keyword-search">
<input name="ontology" id="ontology" type="hidden" value="HP" />
<div class="ui-widget">
<strong>
<label for="keywords">Keywords: </label>
</strong>
<input id="keywords" name="keywords" size="30" />
<input type="submit" name="submit" value="Search terms" />
</div>
</form>
<p class="section-title">
Class: <span class="section-title-value">Striae distensae</span></p>
<div class="iri">...
я вижу HTML, но когда я просмотреть источник, я получаю XML:
<!--
///////////////////////////////////////////////////////////////////////////////////////
//
// Annotation properties
//
///////////////////////////////////////////////////////////////////////////////////////
-->
<AnnotationProperty rdf:about="http://www.geneontology.org/formats/oboInOwl#hasRelatedSynonym"/>
<AnnotationProperty rdf:about="http://purl.obolibrary.org/obo/IAO_0000115"/>
<AnnotationProperty rdf:about="http://www.geneontology.org/formats/oboInOwl#hasDbXref"/>
<AnnotationProperty rdf:about="http://www.geneontology.org/formats/oboInOwl#inSubset"/>
<AnnotationProperty rdf:about="http://www.geneontology.org/formats/oboInOwl#hasAlternativeId"/>
<AnnotationProperty rdf:about="http://www.geneontology.org/formats/oboInOwl#hasOBONamespace"/>
Мне нужен способ, чтобы преобразовать RDF/XML в HTML пр ogramatically. Есть ли простой способ сделать это? Нужно ли найти файл XML-преобразования?
ПРИМЕЧАНИЕ. Причина, по которой мне нужно это сделать, это то, что мне нужно загрузить партию этих документов. Мне нужно очистить данные. У них есть API SPARQ, но я уже написал скребок, думая, что то, что я смотрел, было HTML-документом, я редко пишу что-то от начала до конца, не тестируя его, когда я иду, но по какой-то причине на этот раз я это сделал. Должен быть способ сделать это через плагин браузера, поскольку браузер способен выводить HTML.
Позвольте мне прямо: вы возвращаете данные в обрабатываемом машином формате (RDF/XML), но вы хотите, чтобы он преобразован в удобочитаемый формат (HTML), чтобы вы могли это сделать. .. _scrape_, чтобы превратить его в нечто структурированное/обрабатываемое машиной? Я понимаю, что вы уже начали с этого, прежде чем осознали свою ошибку, но даже в этом случае он может быть более эффективным (и, конечно, лучше в конечном итоге), просто отказаться от вашего скребка и вместо этого написать простой клиент обработки RDF. –
Да, я немного опередил себя и написал весь сценарий, каждую деталь, прежде чем тестировать его. Обычно я проверяю вещи, когда я иду. Вы правы, я должен просто отказаться от сценария. Разбор XML должен быть относительно простым. –
Это будет работать, но использование реальной библиотеки RDF, например EasyRDF, может быть еще проще. YMMV. –