Я пытаюсь написать веб-искатель на Java, и до сих пор он в основном работает, хотя у меня проблемы с веб-сайтами, использующими JavaScript или PHP для динамического получения контента, например, если я пытаюсь обходить блог tumblr, а не получать весь исходный код со ссылками, и все, что я получаю только от CSS и информации заголовка, это потому, что вся информация о сообщениях собирается JavaScript.Как читать исходный код веб-сайта с помощью java
Код им с помощью, чтобы получить исходный код веб-страницы ...
public static String openURL(String url)
{
String source = null;
String temp = "";
BufferedInputStream bis;
try
{
URL my_url = new URL(url);
HttpURLConnection urlConnection = (HttpURLConnection) my_url.openConnection();
urlConnection.setRequestProperty("User-Agent", "Mozilla/5.0");
InputStream is = urlConnection.getInputStream();
bis = new BufferedInputStream(is);
byte[] buffer = new byte[1024];
int bytesread = 0;
source = "";
bytesread = bis.read(buffer);
while(bytesread != -1)
{
source += new String(buffer, 0, bytesread);
bytesread = bis.read(buffer);
}
}
catch (Exception ex){}
System.out.println(source);
return source;
}
ли какой-либо один, как я могу идти об изменении этого так он будет получать динамический контент, любая помощь будет много оценил
Приветствие Daniel
EDIT: извините, ребята, в то время как ваши ответы будут полезны, этот проектом является более образовательным, так что я пытался найти способ сделать это с помощью третьего отказа стороны API,
Вот почему доставка большинство контента через javascript плохо для SEO, доступность и т. д. –