2016-12-31 3 views
1

На этом URL: http://www.ontobee.org/ontology/HP?iri=http://purl.obolibrary.org/obo/HP_0001065PHP - Преобразование XML/RDF в HTML

Когда я проверять элементы с Chrome, я могу увидеть HTML:

<div xmlns="http://www.w3.org/1999/xhtml" id="mainbody"> 
     <link href="http://www.ontobee.org/public/css/ontology.css" rel="stylesheet" type="text/css" /> 
     <script src="http://www.ontobee.org/public/js/ontobee.ontology.js"></script> 
     <h3 class="title"> 
     <a href="http://www.ontobee.org/ontology/HP"> human phenotype ontology</a> 
     </h3> 
     <form action="http://www.ontobee.org/search" method="get" id="keyword-search"> 
     <input name="ontology" id="ontology" type="hidden" value="HP" /> 
     <div class="ui-widget"> 
      <strong> 
      <label for="keywords">Keywords: </label> 
      </strong> 
      <input id="keywords" name="keywords" size="30" /> 
      <input type="submit" name="submit" value="Search terms" /> 
     </div> 
     </form> 
     <p class="section-title"> 
    Class: <span class="section-title-value">Striae distensae</span></p> 
     <div class="iri">... 

я вижу HTML, но когда я просмотреть источник, я получаю XML:

<!-- 
    /////////////////////////////////////////////////////////////////////////////////////// 
    // 
    // Annotation properties 
    // 
    /////////////////////////////////////////////////////////////////////////////////////// 
    --> 

    <AnnotationProperty rdf:about="http://www.geneontology.org/formats/oboInOwl#hasRelatedSynonym"/> 
    <AnnotationProperty rdf:about="http://purl.obolibrary.org/obo/IAO_0000115"/> 
    <AnnotationProperty rdf:about="http://www.geneontology.org/formats/oboInOwl#hasDbXref"/> 
    <AnnotationProperty rdf:about="http://www.geneontology.org/formats/oboInOwl#inSubset"/> 
    <AnnotationProperty rdf:about="http://www.geneontology.org/formats/oboInOwl#hasAlternativeId"/> 
    <AnnotationProperty rdf:about="http://www.geneontology.org/formats/oboInOwl#hasOBONamespace"/> 

Мне нужен способ, чтобы преобразовать RDF/XML в HTML пр ogramatically. Есть ли простой способ сделать это? Нужно ли найти файл XML-преобразования?

ПРИМЕЧАНИЕ. Причина, по которой мне нужно это сделать, это то, что мне нужно загрузить партию этих документов. Мне нужно очистить данные. У них есть API SPARQ, но я уже написал скребок, думая, что то, что я смотрел, было HTML-документом, я редко пишу что-то от начала до конца, не тестируя его, когда я иду, но по какой-то причине на этот раз я это сделал. Должен быть способ сделать это через плагин браузера, поскольку браузер способен выводить HTML.

+0

Позвольте мне прямо: вы возвращаете данные в обрабатываемом машином формате (RDF/XML), но вы хотите, чтобы он преобразован в удобочитаемый формат (HTML), чтобы вы могли это сделать. .. _scrape_, чтобы превратить его в нечто структурированное/обрабатываемое машиной? Я понимаю, что вы уже начали с этого, прежде чем осознали свою ошибку, но даже в этом случае он может быть более эффективным (и, конечно, лучше в конечном итоге), просто отказаться от вашего скребка и вместо этого написать простой клиент обработки RDF. –

+0

Да, я немного опередил себя и написал весь сценарий, каждую деталь, прежде чем тестировать его. Обычно я проверяю вещи, когда я иду. Вы правы, я должен просто отказаться от сценария. Разбор XML должен быть относительно простым. –

+1

Это будет работать, но использование реальной библиотеки RDF, например EasyRDF, может быть еще проще. YMMV. –

ответ

1

RDF на странице предназначен для отображения класса. Итак, нет, вы не могли бы создать HTML-код страницы из RDF.

Если вы ищете HTML-страницы самой страницы, вам будет проще получить HTML-код из средства проверки браузера.

+0

Проблема в том, что мне нужно получить объемное количество этих страниц. Возможно, это хром или плагин firefox, который позволит мне загружать партии HTML для списка страниц. –

Смежные вопросы