У меня есть большая строка - html-страница. Мне нужно найти все имена флеш-накопителей, i.e. Мне нужно получить контент между двойными кавычками: data-name="USB Flash-drive Leef Fuse 32Gb">
. Поэтому мне нужна строка между data-name="
и ">
. Пожалуйста, не упоминайте BeautifulSoup, мне нужно сделать это без BeautifulSoup и лучше без регулярных выражений, но регулярное выражение также принимается.Python. Как найти все вхождения подобранной подстроки?
Я пытался использовать это:
p = re.compile('(?<=")[^,]+(?=")')
result = p.match(html_str)
print(result)
но результат нет. Но regex101.com он работал:
Что не так с использованием парсера DOM в HTML для извлечения значения атрибута? –
@ Vasili Syrakis У меня есть определенная задача - сделать это с помощью python. –
fyi bs4 = python; см. первый абзац этой ссылки: https://www.crummy.com/software/BeautifulSoup/bs4/doc/ –