У меня есть веб-сайт агрегирования новостей на twitter-powered. Я планировал добавлять изображения из статей, которые я нахожу в твиттере.Извлечение * Соответствующее * изображение с веб-страницы
Если я загружаю страницу и извлекаю изображение, используя тег <img>
, я получаю кучу изображений; не все из них относятся к этой статье. Например, изображения кнопок, значков, рекламы и т. Д. Захватываются. Как извлечь изображение, сопровождающее статью? Я знаю, что есть решение - Facebook link sharer делает это довольно хорошо.
Митхун
Дубликат: How to find and extract "main" image in website
Ну, OGP - это то, что Facebook толкает, так что они могут точно извлекать метаданные. К сожалению, большое количество веб-сайтов не соответствует этому стандарту. – mithun