2016-10-23 5 views
0

нужно исправить это регулярное выражение, которое извлечь HTML атрибуты в массиве для меня preg_mach_all функции в PHP:регулярное выражение для HTML атрибутов, нужно исправить

(\S+)=["']?((?:.(?!["']?\s+(?:\S+)=|[>"']))+.)["']?

пример атрибутов:

style="width: 462px;" src=".......=" data-filename="Screenshot from 2016-02-09 21:54:47.png" 

рабочий пример в поиске: https://regex101.com/r/QE9XGD/1

из-за знака знак в конце атрибута src, я получил wro нг массива:

Array 
(
    [0] => Array 
     (
      [0] => style="width: 462px;" 
      [1] => src=".......=" data-filename=" 
     ) 

    [1] => Array 
     (
      [0] => style 
      [1] => src="....... 
     ) 

    [2] => Array 
     (
      [0] => width: 462px; 
      [1] => data-filename= 
     ) 

) 

правильный массив должен быть таким:

Array 
    (
     [0] => Array 
      (
       [0] => style="width: 462px;" 
       [1] => src=".......=" 
       [2] => data-filename="Screenshot from 2016-02-09 1:54:47.png" 
      ) 

     [1] => Array 
      (
       [0] => style 
       [1] => src 
       [2] => data-filename 
      ) 

     [2] => Array 
      (
       [0] => width: 462px; 
       [1] => .......= 
       [2] => Screenshot from 2016-02-09 1:54:47.png 
      ) 

    ) 

как исправить это регулярное выражение, чтобы получить правильный ответ?

Помните я использую это регулярное выражение не только в изображении атрибутов экстракции, является универсальным регулярным выражением для всех типов HTML-тегов

+0

А как насчет 'DOM' путь вместо ??? – Jan

+0

Regex работает быстрее, поэтому вы можете использовать регулярное выражение, если это возможно. –

ответ

-1

(\S+?)=["']?((?:.(?!["']?\s+(?:\S+)=|[>"']))+.)["']?

Изменения, чтобы сделать оценку имени атрибута ленивого, так это только ест, пока не найдет =.

Работа на пример regex101

, как говорится, я довольно уверен, что это регулярное выражение может быть уменьшена.


([^\s=]+)=('?)("?)([^>"']*)\2\3, вероятно, лучший вариант:

Она занимает около 2% от времени ленивых оценки и будет делать как однократно и двукратно атрибуты в кавычках. Большое изменение здесь - группы захвата, которые вы хотите, - это 1-й и 4-й. Насколько я знаю, это будет работать на любой HTML кроме: tag='"value'

regex101

Смежные вопросы