2016-05-17 3 views
-4

Я хочу, чтобы очистить данные, используя веб-страницы:скребковые данные из сети, используя R

http://www.bigpara.com/borsa/gecmis-kapanislar/endeks/14-aralik-2015 Связанный источник является:

<div class="tableCnt"> 
    <div class="table wide"> 
     <div class="tableBox"> 
      <div class="tHead"> 
       <ul> 
        <li class="cell008 tal">Menkul Adı</li> 
        <li class="cell002">Dün</li> 
        <li class="cell002">1.Seans</li> 
        <li class="cell002">2.Seans</li> 
        <li class="cell002">%</li> 
        <li class="cell002">Yüksek</li> 
        <li class="cell002">Düşük</li> 
       </ul> 
      </div> 
      <div class="tBody"> 
         <ul> 
          <li class="cell008 tal arrow"><a href="/borsa/endeksler/bist-30-agirlik-sinirlamali-endeksi/">X030S</a></li> 
          <li class="cell002">86.337</li> 
          <li class="cell002">87.403</li> 
          <li class="cell002">85.010</li> 
          <li class="cell002">-1,54</li> 
          <li class="cell002">88.151</li> 
          <li class="cell002">84.863</li> 
         </ul> 
         <ul> 
          <li class="cell008 tal arrow"><a href="/borsa/endeksler/bist-100-agirlik-sinirlamali-endeksi/">X100S</a></li> 
          <li class="cell002">70.274</li> 
          <li class="cell002">71.146</li> 
          <li class="cell002">69.302</li> 
          <li class="cell002">-1,38</li> 
          <li class="cell002">71.680</li> 

Я хочу, чтобы очистить 69.302.

enter image description here

Этот пример только для этой даты (14-aralik-2015/14-декабрь 2015 года). Однако я сделаю цикл, чтобы очистить одну и ту же ячейку для других дат.

Я пробовал много вещей, но веб-соскабливание мне кажется настолько сложным. Я буду очень рад за любую помощь. Большое спасибо.

+1

посмотреть 'rvest'. – MichaelChirico

ответ

2

rvest делает это довольно простым. Для одной ячейки просто щелкните правой кнопкой мыши, проверьте, а затем скопируйте xpath для ячейки. Что-то подсказывает мне, что вы измените свой вопрос и попросите больше, чем эту единственную ячейку, хотя ...

library("rvest") 
url <- "http://www.bigpara.com/borsa/gecmis-kapanislar/endeks/14-aralik-2015/2-ocak-2000" 

read_html(url) %>% 
    html_nodes(xpath='//*[@id="content"]/div[2]/div[3]/div/div/div[2]/ul[2]/li[4]') %>% 
    html_text() %>% 
    as.numeric() 
+0

Код дает мне ошибку, как «Ошибка в eval (expr, envir, enc): не удалось найти функцию« read_html ». И вы правы :) Я отредактирую ее. – oercim

+0

Вам нужно« install.packages ("rvest") 'и' library ("rvest") 'перед попыткой выполнить код. – cory

+0

Альтернативный селектор CSS:'. .tBody ul: nth-child (2) li: nth-child (4) "' – alistaire

Смежные вопросы