Я попытался создать программу для очистки сети для команд управления компанией. Это очень точный при получении многих вещей, в том числе:Веб-скрещивание описания человека
-names
-JOB названия
Прообразы
-emails
-Qualifications (MD, PhD, т.д.) и суффиксы (II, III, JR.)
Проблема, с которой я сталкиваюсь, - это соскабливание описания человека. Например, на странице Facebook Executive Bios мне бы хотелось, чтобы описание Марка Цукерберга. Тем не менее, при всех различиях в структуре HTML, очень сложно очистить его с точностью до 100%.
Я использую Perl и многие, что, я считаю, продвинутыми, регулярными выражениями. Есть ли лучший способ/инструмент для решения этой проблемы?
Моя последняя попытка состояла в том, чтобы найти последнее вхождение имени человека на странице, затем взять весь текст, пока я не ударил имя коллеги. Хотя кажется, что это сработает, это дает мне меньше желаемых результатов.
РЕДАКТИРОВАТЬ: Я понял, что этот вопрос оторвался как просто попытка разобрать эту конкретную страницу, мне нужно что-то достаточно общее, чтобы работать над любыми компаниями «люди-страницы». Я знаю, что 100% -ная точность недостижима, ища что-то, что позволило бы мне получить 50% плюс, поскольку в настоящее время я снижаюсь примерно на 15-20%.
На самом деле, эта страница тривиальна для очистки с помощью любого анализатора HTML. Вся информация содержится в элементах с разными именами классов. Конечно, использование регулярных выражений для синтаксического анализа HTML - это, как правило, проблема с ошибкой и разочарование. Итак, используйте парсер HTML. –
http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454 –
Да, эта страница тривиально согласована, мне нужно что-то достаточно общее, чтобы работайте на любой странице (или не менее 50-60%). Я просто схватил страницу facebook, чтобы показать пример контента, который я собираюсь сделать. – user387049