Я пытаюсь создать XPathQuery, чтобы захватить все внутри класса 'ocrx_word'
Я пробовал некоторые варианты и не нашел каких-либо работ, я получаю ошибку Unable to Parse
.XPath Query for all 'ocrx_word'
Вот как выглядит мой HTML.
<span class='ocr_line' id='line_3' title="bbox 165 201 443 219">
<span class='ocrx_word' id='word_5' title="bbox 165 201 252 217">Associate</span>
<span class='ocrx_word' id='word_6' title="bbox 259 202 335 218">Director</span>
<span class='ocrx_word' id='word_7' title="bbox 341 203 358 218">of</span>
<span class='ocrx_word' id='word_8' title="bbox 361 203 443 219">Athletics</span>
</span>
Я хочу захватить атрибут title и строку.
NSString *htmlString = [tesseract getHOCRText];
NSData *tutorialsHtmlData = [htmlString dataUsingEncoding:NSASCIIStringEncoding];
// 2
TFHpple *tutorialsParser = [TFHpple hppleWithHTMLData:tutorialsHtmlData];
NSString *tutorialsXpathQueryString = @"//*[@class='ocrx_word']/text()";
NSArray *tutorialsNodes = [tutorialsParser searchWithXPathQuery:tutorialsXpathQueryString];
Вы должны проверить строку, которая фактически подается в синтаксический анализатор, и его кодировка (общая причина проблем с анализом - попробуйте UTF8). Выражение XPath, похоже, не является проблемой. – helderdarocha
Я поместил одну строку HTML в строку, и я не получил ошибку синтаксического анализа. Итак, как я буду использовать UTF8? –
Хорошо, я получил его, изменил dataUsingEncoding: NSASCIIStringEncoding для dataUsingEncoding: NSUTF8StringEncoding –