2013-05-13 6 views
0

Я хочу написать сценарий, который проверяет документ для ключевых слов и задает узлы html-документа, в которых они содержатся (возможно, присваивает уникальный идентификатор).Получить узлы в документе html содержит слово

Я не профессиональный программист и не знаю силы низкоуровневых языков и вещей как PLO .. Я боюсь делать что-то очень плохое и неподдерживаемое.

Как можно выделить нужные узлы?

Мой опыт - js и php - php только для очень простых вещей. Кроме того, I не хотят использовать возможность работать с узлами js. Мои мысли:

  • сделать строку HTML
  • проверить наличие слов на странице
  • если слово на странице существует: узел Еогеаспа в элементе тела я получаю первый и последние позиции (например, мы видим открытый тег для каждого символа, который мы изначально знаем, , и поэтому мы вычисляем первое положение , где тег открыт и последний, где он закрыт. И так далее для всех узлов).

Мы знаем позицию слова (например, 192, 199) и проверьте, в каком диапазоне он получил (в этом случае эти полосы - узлы документа HTML).

Мне нужны идеи опытных программистов. Не имеет значения, на каком языке вы находитесь программирование (за исключением веб-ориентированных) - Мне очень важно каждое мнение. Вероятно, есть библиотеки, которые решают такие проблемы . Я очень надеюсь, что вы поймете меня. Английский не мой родной язык .

ответ

1

Я всегда рекомендую Beautiful Soup для такого рода вещей. Это библиотека Python, которая позволяет быстро анализировать XML/HTML-документы. Вы могли бы быстро получить что-то запустившееся, которое извлекает текст из каждого элемента div, о котором я бы подумал. Затем, используя встроенные инструменты манипуляции с Pythons, я уверен, что поиск определенных слов будет довольно простым.

1

Вам нужно использовать синтаксический анализатор html. См

Which HTML Parser is the best?

После этого, вам нужно использовать функцию XPATH для извлечения какой бы ни узел.

Смежные вопросы