Я пытаюсь написать небольшое приложение для извлечения содержимого из страниц Википедии. Когда я впервые подумал, что это так, я подумал, что могу просто нацелить divs, содержащие контент с XPath, но после изучения того, как Wikipedia строит свои статьи, я быстро обнаружил, что это будет не так просто. Лучший способ разделить контент, когда я получаю страницу, - это выбрать, что находится между двумя наборами тегов h2
.XPath, чтобы получить разметку между двумя заголовками
Пример: <h2>Title</h2> <div>Some Content</div> <h2>Title</h2>
Здесь я хотел бы получить div
между наборами заголовков. Я пробовал делать это с XPath, но не везет вообще. Я собираюсь больше взглянуть на XPath, потому что я думаю, что это то, что мне нужно для достижения того, чего я хочу, но прежде чем я слишком много вникаю в это, мне хотелось бы услышать, что вы, ребята, думаете об этом. Является ли XPath правильным путем, или у меня есть другие более простые варианты? Я пишу приложение в C#, если это имеет значение.
Это было именно то, что я искал! Спасибо :-) Я буду отмечать как правильный ответ после того, как проведу его, когда вернусь домой. – SeverinDK
Я добавил свой ответ на правильный ответ. Ваш ответ действительно вел меня в правильном направлении! – SeverinDK
Добро пожаловать. Пожалуйста, [** accept **] (http://meta.stackoverflow.com/q/5234/234215) этот ответ, если это поможет. Благодарю. (Не уверен, что вы подразумеваете под * Я добавил свой собственный ответ на правильный ответ *, если вы не имеете в виду, что вам нужно было внести коррективы - я не вижу другого ответа SO, размещенного здесь вами на этот вопрос.) – kjhughes