2013-11-14 2 views
0

У меня возникла трудное время, чтобы получить это ..Regex innerHtml таблицы, чтобы найти специальный charcters

У меня есть этот HTML код:

<table border='1'><tr><th></th><th>Fact Questions Report Type Count</th></tr><tr> 
<td class=' sorting_1'>0 - 18</td><td>78</td></tr><tr><td class=' sorting_1'>19-64</td> 
<td>78</td></tr><tr><td class=' sorting_1'>65+</td><td>78</td></tr><tr> 
<td class=' sorting_1'>אין גיל</td><td>78</td></tr><tr><td class=' sorting_1'>נפטר</td> 
<td>78</td></tr><tr><td class=' sorting_1'>Unknown</td><td>78</td></tr></table> 

Как вы видите, есть специальные символы, Я хочу, чтобы поймать как те:

אין גיל, נפטר

Я думал сделать регулярное выражение, которое исключит все слова \W го числа \D и those->=|'

Но я не могу заставить его работать ..

Идеальное решение будет получать два пункта со специальными charcters ... אין גיל, נפטר

PS: Там может быть и другой специальным charcters

Я люблю, чтобы увидеть пример для этого здесь: RegexPal - Online Editor

Тпм!

+0

Это может критически зависеть от того, какой двигатель регулярного выражения вы используете. PHP? C#? Ява? –

ответ

2

Если вы пытаетесь поймать символы на иврите конкретно, вы можете попробовать

[\u0590-\u05FF\s]+ 

предполагающие пространства в порядке, или, если использовать более продвинутый движок регулярных выражений,

[\p{Hebrew}\s]+ 

Если вы на самом деле пытаетесь поймать неанглийских, но печатных персонажей, тогда вам сложно помочь, не видя, что вы пробовали. \D является подмножеством \W, так что вы должны только \W+, или если я вас правильно понимаю, что вы хотите, чтобы исключить ->=|', а также, то [^\w>=|-]+ (тир должен прийти здесь в последний раз (или во втором положении после ^)).

1

Это один соответствует только ASCII printable characters:

[\x20-\x7e] 

поймать этих אין גיל, נפטר (среди многих других символов не ASCII), вам необходимо

[^\x20-\x7e] 

В соответствии с просьбой: regexpal.com

1

Я думал сделать регулярное выражение, которое исключит все слова \ W и числа \ D и те = | '

Просто сделайте это: [^\w\d=|']+

Regular expression visualization

Обратите внимание, что вы не можете использовать [^\W]: с \W средств ничего, кроме \w, [^\W] означает ничего, кроме ничего, кроме \w, т.е. \w (- x - = +).

Смежные вопросы