У меня есть эта страница html. Я пытаюсь извлечь следующую информацию этого DIV:Не удается получить содержимое определенного div
<div class="clearfix">
<div class="container left">
<div class="logo">
<a href="/teams/belarus/fc-bate-borisov/200/">
<img src="http://cache.images.core.optasports.com/soccer/teams/150x150/200.png" alt="FC BATE Borisov" />
</a>
</div>
</div>
<div class="container middle">
<div class="details clearfix">
<dl>
<dt>Gara</dt>
<dd><a href="/national/belarus/premier-league/2016/regular-season/r34862/">Premier League</a></dd>
<dt>Data</dt>
<dd><a href="/matches/2016/06/25/"><span class='timestamp' data-value='1466877600' data-format='d mmmm yyyy'>25 giugno 2016</span></a></dd>
<dt>Game week</dt>
<dd>14</dd>
<dt>calcio di inizio</dt>
<dd>
<span class='timestamp' data-value='1466877600' data-format='HH:MM'>20:00</span>
(<span class="game-minute">FP'</span>)
</dd>
</dl>
</div>
<div class="details clearfix">
<dl>
<dt>Stadio</dt>
<dd><a href="venue/">Borisov Arena (Barysaw (Borisov))</a></dd>
</dl>
</div>
</div>
<div class="container right">
<div class="logo">
<a href="/teams/belarus/fc-vitebsk/204/">
<img src="http://cache.images.core.optasports.com/soccer/teams/150x150/204.png" alt="FC Vitebsk" />
</a>
</div>
</div>
</div>
</div>
</div>
</div>
, в частности, на вкладке calcio di inizio - game week - stadio
На самом деле я пытался это регулярное выражение: <div[^<>]*class="clearfix"[^<>]*>(?<content>.*?)
, но когда я проверить его на https://regex101.com/ I не может запускать регулярное выражение. Я думаю, что класс div связан с несколькими div, поэтому это может быть проблемой.
А также у вас нет ни одного класса для его принятия, любая идея?
Вы считали, что вместо этого используете правильный HTML-парсер? –
Пожалуйста, см. [Стандартный ответ] (http://stackoverflow.com/a/1732454), почему бы не делать это с помощью регулярных выражений. Теперь, чтобы ответить на ваш вопрос, вы можете использовать что-то вроде [Xidel] (http://www.videlibri.de/xidel.html). Возможно, вот так: 'xidel -e '// div [@ class =" clearfix "]' file.html'. –
которые вы предлагаете? Я на .net –