Как учебное упражнение, я пишу веб-скребок в Common Lisp. (Грубый) план:Общий пакет Lisp для разбора недействительного HTML?
- Использование Quicklisp для управления зависимостями
- Используйте Drakma для загрузки страниц
- разбирает страницы с xmls
Я просто запустить в мертвую точку : веб-сайт, который я соскабливаю, не всегда производит действительный XHTML. Это означает, что шаг 3 (проанализировать страницы с xmls) не работает. И я не хочу использовать регулярные выражения как this guy :-)
Итак, может ли кто-нибудь порекомендовать общий пакет Lisp для разбора недействительного XHTML? Я представляю что-то похожее на HTML Agility Pack для .NET ...
затворных HTML, кажется, не работает под GNU CLISP - но (не желая разжигайте святую войну), похоже, что переход на SBCL будет безболезненным. Я все еще чувствую, что нащупываю в пустыне Лиспа, но по крайней мере теперь я слышу голоса. Надеюсь, они не просто в моей голове :-) –