2010-11-26 2 views
2

Я делаю ссылку на ссылку, например, facebook. В настоящее время я анализирую метатеги для получения ключевых слов, описаний и т. Д., Но как разбирать страницы такого типа. http://en.wikipedia.org/wiki/Wikipedia Для этой страницы нет метаописания, но facebook по-прежнему получает следующее описание: Wikipedia (/ˌwɪkɪpiːdi.ə/ or/ˌwɪkipiːdi. ə/WIK-i-PEE-dee-ə) - бесплатный, [3] веб-сайт, совместный, многоязычный проект энциклопедии, поддерживаемый некоммерческим Фондом Викимедиа. Его 17 миллионов статей (более 3,4 миллиона на английском языке) были написаны совместно добровольцами вокругИзвлечь текст из внешнего URL-адреса

Как извлечь такое описание, если на странице нет метатега описания.

ответ

2

Похоже, они создают описание так же Bing делает что может быть трудно легко воссоздать:

Как Bing генерирует описание моего веб-сайта?

Способ дизайна вашей веб-страницы контент оказывает наибольшее влияние на ваше описание веб-страницы. Поскольку MSNBot сканирует ваш веб-сайт, он анализирует содержимое на проиндексированных веб-страницах, а создает ключевые слова для связи с каждой веб-страницей. MSNBot извлекает Web содержание страницы, которое наиболее актуально для ключевых слов, а также создает веб-описание , которое отображается в результатах поиска. Содержимое веб-страницы обычно представляет сегменты предложения, которые содержат ключевые слова или информацию в теге описания . Заголовок веб-страницы также извлекается, и в результатах поиска отображаются .

Если изменить содержимое страницы Web , ваше описание веб-страницы может изменить следующий раз, когда индекс Bing обновляется . Чтобы повлиять на описание вашего веб-сайта , убедитесь, что ваши веб-страницы эффективно доставляют информацию, которую вы хотите найти в результатах поиска . Webmaster Center рекомендует следующие стратегии, когда вы создать свой контент:

* Place descriptive content near the top of each Web page. 
* Make sure that each Web page has a clear topic and purpose. 
* Create unique <title> tag content for each page. 
* Add a Web site description <meta> tag to describe the purpose of 

каждую страницу на вашем сайте. Например:

> <META NAME="Description" 
> CONTENT="Sample text - describe your 

http://www.bing.com/toolbox/support/faqs.aspx

Одним из вариантов было бы ударить Bing и попытаться извлечь описание оттуда.

+0

Привет, Бендан, Можете ли вы посоветовать мне, как я могу ударить по Google или Bing? – 2010-11-29 09:42:25

+0

Вы можете исследовать с помощью Bing API: http://www.bing.com/developers/s/API%20Basics.pdf – brendan 2010-11-29 17:27:44

0

Скачать эту страницу и parse для извлечения все, что вам нужно получить:

System.Net.WebClient client = new System.Net.WebClient(); 

String url = "http://en.wikipedia.org/wiki/Wikipedia"; 

String pageHTMLSource = client.DownloadString(url); 

//Parse pageHTMLSource 
+0

У меня уже есть источник HTML со мной, но как решить, какой текст тега содержит соответствующие данные для меня для цели описания. Это должно быть как минимум несколько слов. – 2010-11-26 15:52:22

1

Если вы хотите создать программу, которая даст вам хорошее описание произвольного веб-сайта, вам придется делать не что иное, как полноценный KI, который, возможно, даже пройдет тест Тьюринга. Короткий ответ: вы не можете.

Если вы готовы заплатить человеческий разум, чтобы написать резюме о веб-странице для вас, google для «Microjobs». Вы можете создать автоматизированное описание работы, например «Напишите резюме двух предложений о веб-странице XY» и поместите за него некоторые центы стоимости.

Конечно, вы можете попробовать найти первый абзац текста и извлечь из него первые N предложений, но это не удастся на сайте .

1

Amazon сталкивается с аналогичной проблемой и имеет довольно новый solution. Очевидно, что это не идеально, но, выйдя замуж за идею о том, что использует Bing, я бы поставил на то, что вы можете получить некоторые довольно прочные и интересные теги ключевых слов, сгенерированные автоматически, с их более подозрительным описанием.
Так что бы выглядеть следующим образом:
Описания от мета
интересных предложений в соответствии с Бингом \ Google
STP как теги, с во всплывающем контекст.

Я думаю, что, во всяком случае, это похоже на убийство мухи.
Это переделает вашу проблему в нелепой степени.