2014-12-28 2 views

ответ

1

Google - и любая рациональная поисковая система - подталкивает цифры, оценивая, сколько результатов есть. Он не должен быть идеальным для поисковой системы. Фактически, для их фактического перечисления количество результатов будет медленным и довольно абсурдным, так как большинство пользователей не покидают первую страницу или не смотрят на количество результатов.

Я не уверен, что вы намереваетесь делать с этими статистическими данными, но, как лингвист, я бы посоветовал не использовать результаты поиска для чего-либо, кроме зная, сколько страниц результатов вы, вероятно, нажмете. Они делают много вещей под капотом, которые не известны общественности. То же самое касается того, как именно они индексируют Интернет. Общий материал известен, но ничтожество, связанное с тем, как происходит подсчет, не знает. В результате этого номера не имеют контекста - на каких страницах они появляются, n подсчитывает, сколько именно сайтов и т. Д.

Вместо этого я рекомендую посмотреть на конкретный корпус или корпус. Там есть корпуса: COCA и UKWAC приходят на ум как максимально общие - которые готовы к исследовательским целям. Вы также можете использовать Wikipedia как корпус, если он вам подходит.

+0

Спасибо, это интересно. Тем не менее, вы не знаете, что такое 'rc'. –

+0

Они заявляют, что они предоставляют точный счет поиска (http://www.google.com/support/enterprise/static/gsa/docs/admin/70/gsa_doc_set/xml_reference/appendices.html#1075478), но Я до сих пор не верю. – Dan

+1

Это для Google Search Appliance. –

Смежные вопросы