0

У меня есть код с встроенными в него данными. Вот пример:извлекать данные из смеси кода (html, css, javascript) и данных

<div class='clear' ></div> 
    </div> <!-- findResultListing --> 














    <div class='findResultListing ' id='result_listing_7_0' onclick='examMapManagerHandle.clickMarker(7,0);'> 





    <a href='javascript:examMapManagerHandle.clickMarker(7,0);'> 
     <img class='balloon' src='/system/themes/asp/img/gmarkerH.png' border='0' /> 
    </a> 


     <div class='findResultInfo'> 
         <div class="nextStep"> 
       <a href="/system/modules/shibboleth/secure_find/shib_gateway.php?url=%2Fexams%2Fschedule.php%3Fnav%3Dexams%2Cstucourses%2Cexams%2Csched_exam%26amp%3Badd_locid%3D1672"> 
        <img height="16" border="0" align="left" width="16" src="/system/themes/asp/img/schedule.png"/>Schedule&nbsp;Exam 
       </a> 
      </div> 

      <a href='javascript:examMapManagerHandle.clickMarker(7,0);' > 


        SJSU Testing 

        <img class='userType' border='0' src="/system/themes/asp/img/org.png" alt='Testing Site' title='Testing Site'/> 




      </a> 
      <br /> 


           One Washington Square<br /> 

           Industrial Studies Building 228<br /> 

           San Jose, CA 95112<br /> 



           Phone: (408) 924-5980<br /> 

           Email: <span id="_smarty_mailto_span_2096382943_1423929156_8">&nbsp;</span> 
      <noscript>To see email address, enable javascript</noscript> 
      <script type="text/javascript">var mailto=document.getElementById("_smarty_mailto_span_2096382943_1423929156_8");    
       mailto.innerHTML='<a href="mailto:[email protected]" >[email protected]</a>';</script><br /> 




        Fee for two hour exam: 

     $40.00  












           <a class="helpBtn" onmouseover="asp_toolTip(this,' &lt;strong&gt;Fee Details:&lt;\/strong&gt; We charge $20 for the first hour and $10 for each half hour after... &lt;br /&gt; &lt;strong&gt;Miscellaneous Fees:&lt;\/strong&gt; Test emailed in pdf/Word Doc., we will charge an administrative fee of $15 for 10 or more test pages &lt;br /&gt; &lt;strong&gt;Parking Fee Details:&lt;\/strong&gt; Its $8.00 to park in the 10th St. garage on the corner of 9th &amp; E. San Fernando Sts.', 'findResultsToolTip', 'fit_west', 'map_results_pane');"></a> 

      <br /> 



          </div><!-- findResultInfo --> 

Я хочу, чтобы извлечь только следующие из кода выше:

SJSU тестирования полигона

One Washington Square

Промышленные исследования Строительство 228

San Jose, CA 95112

Телефон: (408) 924-5980

Email: [email protected]

Плата за два часа экзамена: $ 40,00

Какие способы, в которых я могу автоматизировать извлечение этих данных из кода?

+0

делает предлагаемую работу решением для вас? – aberna

+0

@aberna Я не уверен, как «использовать» Xpath. Должен ли я использовать его из Chrome (он доступен через элемент проверки) ... или есть какое-то приложение, которое я должен использовать? Я знаком с Xpath как технологией поиска содержимого на веб-страницах ... и использовал его из Excel и Google Таблиц --- использовать один из них для этого? –

+1

Xpath используется для навигации по элементам. Все основные языки предлагают разные интерфейсы для использования xpath. Проверьте здесь http://en.wikipedia.org/wiki/XPath для реализаций на языке программирования, который вам удобнее использовать. – aberna

ответ

2

Использование Xpath Я хотел бы сделать использование этого выражения:

//*/text() 
Смежные вопросы