Я пытаюсь получить ссылки с определенной страницы, чтобы они были представлены на странице или были достаточно близки. Я считаю, что нашел правильный вызов API, чтобы сделать это, используя запрос синтаксического анализа, однако я замечаю, что получаю много из того, что я считаю «мусорными» ссылками, которые действительно являются ссылками, сделанными в ссылках. Например, для Альберта Эйнштейна я делаю запрос (http://en.wikipedia.org/w/api.php?action=parse&format=json&page=Albert%20Einstein&redirects=&prop=links), и я получу ссылки, которые встречаются в ссылках, таких как E. T. Whittaker и JSTOR. Для моих целей эти ссылки в ссылках являются «мусорными».API Wikipedia: исключая ссылки из запроса на парсер
В качестве альтернативы я просмотрел команду запроса, но обнаружил, что команда запроса с помощью prop = link в конечном итоге приведет к тому, что ссылки будут в алфавитном порядке, которые потеряют часть информации, которую я хотел посмотреть. Кроме того, этот запрос API также включает эти «нежелательные» ссылки из ссылок.
Есть ли в любом случае для меня команда parse игнорировать ссылки, которые находятся в ссылочных тегах, или мне нужно вместо этого получить текст с помощью API, а затем выполнить парсинг на стороне клиента?
Я также забыл упомянуть, что я рассматривал использование разделов, но, насколько я знаю, у меня нет программного способа определить, какие разделы являются ссылочными разделами, используя API. – Nobosi
Невозможно скрыть ссылки после получения HTML, например. с стилем CSS? – Nemo