Мне нужно очистить текст сообщений в блоге, чтобы составить краткое описание сообщений в блогах, похожих на то, что делает techmeme.com. не проблема, когда это одна или несколько сообщений в блоге. однако возможные блоги, из которых можно очистить текст, являются переменными и неограниченными. как бы вы это сделали?интересная новостная статья/проблема с выскабливанием блога
Я использовал hmml agility pack и yql в прошлом, но нет ничего встроенного ни в одно из этих решений для обработки этого требования.
Одна мысль, что я должен был искать div id и атрибуты div, называемые такими вещами, как контент, сообщение, статья и т. Д., И посмотреть, как это работает - на самом деле не наклоняется в этом направлении. другая идея состояла в том, чтобы найти самый большой текстовый узел в html-документе и предположить, что это тот узел, который я хочу - может привести к некоторым ложным срабатываниям. конечная идея состояла в том, чтобы попытаться создать хранилище данных с копираусами в приложениях Google, которые позволят сообществу управлять (читать: создавать, обновлять, удалять) сопоставления xpath для большинства популярных платформ новостей и блогов, тогда вы можете запросить этот список по типу домена или блога и получить необходимый xpath - но это похоже на дело hella.
Конечно, я знаю, что некоторые из вас имеют идеи, которые будут работать лучше, чем любая из моих заядлых идей.
что вы думаете?
Мои мысли, что я абсолютно презираю сайты, которые переиздают контент от оригинальных авторов. Вы не только пытаетесь заработать деньги на чужой работе, но и загрязняете пространство поиска. ОСТАНОВИТЕ ЭТО. – Chris
Крис, ты предполагаешь, что знаешь, что мы пытаемся сделать. ОСТАНОВИТЕ ЭТО. Мы просто хотим получить резюме, похожее на веб-сайт, упомянутый выше. Чтение может помочь вам в будущем. – brooks