Я пытаюсь извлечь некоторый HTML из разных блогов и заметил, что разные поставщики используют один и тот же тег по-разному.Лучший способ получить различный тег HTML
Например, вот два основных провайдеров, которые используют мета имя генератора тегов по-разному:
- Blogger:
<meta content='blogger' name='generator'/>
(содержание первого, имя позже и, да, одиночные кавычки!) - WordPress:
<meta name="generator" content="WordPress.com" />
(имя сначала, содержание позже)
Есть ли способ извлечь значение содержимого для всех случаев (одиночные/двойные кавычки, первые/последние в строке)?
P.S. Хотя я использую Java, ответ, вероятно, поможет большему количеству людей, если это где для регулярных выражений вообще.