Имея ссылку URL. Например: http://www.engineersireland.ie/home.aspxПолучите весь текстовый контент между тегами из URL-адреса?
Я могу прочитать их, используя java, встроенный в java.net.URL или Jsoup.
Затем мне нужно извлечь все текстовое содержимое между тегами после тега.
В тегах будут теги. Все, что мне нужно, это текст в середине.
, например:
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<head id="head"><title>
Engineers Ireland - Home
</title><meta http-equiv="content-type" content="text/html; charset=UTF-8" />
<meta http-equiv="pragma" content="no-cache" />
<meta http-equiv="content-style-type" content="text/css" />
<meta http-equiv="content-script-type" content="text/javascript" />
<link href="/favicon.ico" type="image/x-icon" rel="shortcut icon"/>
<link href="/favicon.ico" type="image/x-icon" rel="icon"/>
<body>
<div class="module-content">
<p id="1">Members can login for access to exclusive content, event booking, shop discounts and more...</p>
<fieldset>
<legend>Your Login Details</legend>
<div class="formline">
<label for="1" id="1">Your Membership Number</label>
<input name="1" type="text" id="1" title="Your Membership Number" class="login-username clearlabel" />
<span id="1e" class="ErrorLabel" style="display:none;">Enter your membership number</span>
</div>
<div class="formline">
<label for="1" id="adasdasd">Password</label>
<input name="asdasd" type="password" id="dfbsdf" title="Password" class="login-password clearlabel" />
<span id="drthd" class="ErrorLabel" style="display:none;">Enter your password</span>
</div>
<div class="formline">
<input name="aseresrr" type="checkbox" id="bstg" class="login-remember" />
<label for="ryjmf" id="asrats" class="remember">Remember Me</label>
<div class="button grey">
<input type="submit" name="fgn" value="LOGIN" onclick="sdf;, false, false))" id="sdfsdf" />
</div>
</div>
</fieldset>
<ul class="arrow">
<li><a href="/site/reset-password.aspx">Forgot your password?</a></li>
<li><a href="/membership/apply.aspx">Haven't registered yet?</a></li>
</ul>
</div>
</body>
</html>
Из этого кода HTML, все что мне нужно всего лишь:
Your Membership Number
Enter your membership number
Password
Enter your password
Remember Me
Другое дело, что,
Keep in mind, the tag names and the number of tag are always random depend on the web page iteself.
Любая помощь? Используя Jsoup или java? Thx
Вы пробовали что-нибудь? Вы посмотрели документацию JSoup? Какие правила существуют для текста, который вы хотите, а какой текст у вас нет? Это похоже на текстовое содержимое всех '' и '' элементов в '
', и ничего больше? Действительно ли это требования? Почему, например, текст из тега '' или ссылки внизу исключены? –Да. Я посмотрел документы Jsoup. Изучая это сейчас. Для примера выше это просто случайный. Мне нужен весь текст между любыми тегами после
. Теги могут содержать теги, но мне нужен текст в середине всех этих слоев тегов. Thx –Если вы все еще изучаете, просто прокрутите вниз. Я опубликовал рабочий пример. – nivekastoreth