Я внимательно изучил ответы на Pratik Chowdhury и Robbie Vercammen. Они предоставляют ссылку на веб-документы, которые сообщают список возможных текстовых фильтров, которые будут использоваться в форме поиска Google. Несмотря на это интересно, они не дают ответа на вопрос. Следовательно, я много изучил проблему, и я нашел следующее решение.
Предположим, что вам нужно сделать Una Tantum HTTP вызов с (например, с помощью класса PHP запущенной через CRON один раз в месяц) в поиске Google для извлечения результатов поиска для конкретной строки запроса, например, все страницы с некоторыми словами (т. е. «привет» и «мир») на вашем сайте (т. е. mywebsite.ком), то вы можете сделать HTTP GET позвонить по следующему адресу:
http://www.google.com/search?q=hello+world+site:mywebsite.com
Параметр q
может содержать весь поисковый запрос, однако Google определил фиктивного доказательства списка параметров.
Обратите внимание: оператор AND
может быть представлен параметром as_q
.
Чтобы получить результаты страниц с одного между «привет» и «мир» (то есть и OR), необходимо изменить параметр запроса „Q“, как:
q=hello+OR+world
в то время как более компактное представление использует as_oq
параметр:
as_oq=hello+world
Если один ищет точную фразу "привет мир", параметр q
является:
q="hello+world"
в то время, опять-таки, другое компактное представление использует as_epq
параметр:
as_epq=hello+world
Если один ищет все результаты, которые не содержат слова «привет» и «мир», параметр q
является:
q=-hello+-world
в то время, опять-таки, другое компактное представление использует as_eq
параметр:
as_eq=hello+world
Конечно, as_q
, as_oq
, as_epq
, as_eq
и т. Д. Могут комбинироваться в виде уникального поискового запроса, как обычно (т. используя символ &
). Так, например, я могу искать оба слова «привет» и «слово» плюс один между «программирование» и «код», как следовать здесь:
q=hello+world&as_oq=programming+code
можно выполнить поиск конкретного домена (опять же, MYDOMAIN .com) следующим образом:
as_sitesearch=mydomain.com
Однако, если вы хотите, чтобы исключить определенный домен (например, потому что она является источником спама), вы должны возвращаться к стандартной нотации. Например .:
q=hello+-site:mydomain.com
возвратные все страницы со словом «привет», которые не на сайте mydomain.com.
Чтобы получить конкретный тип файла, например. в формате PDF, вы можете использовать as_filetype
:
as_filetype=pdf
Более сложный поиск параметр может быть использован, как это предусмотрено в Google support docs. Например, чтобы получить результаты с синонимом слова, просто используйте оператор ~
перед словом, например.
q=~hello
Кроме того, если вы хотите использовать подстановочные знаки, например. чтобы получить все точные фразы, которые начинаются с «привет» и заканчиваются «миром», вы должны использовать *
оператор:
q="hello+*+world"
, который, вероятно, будет возвращать что-то вроде: «привет мир» и «привет сладкий Мир".
Можно также найти определенные слова в заголовке страницы или страницы сайта, используя следующие ключевые слова (читай here более подробно):
- InTitle
- Allintitle
- Inurl
- allinurl
Например, следующие страницы возвращаются на все страницы оба слова «привет» и «мир» в URL-адрес:
q=allinurl:hello+world
Для языка страницы Google GUI (а не один из результатов), необходимо вставить в строку запроса строку языка (например, en
для английского, fr
для французского, it
для итальянского и т. Д.) До параметра hl
. Другими словами, если один поиск с английской версии Google, строка запроса будет следующим:
http://www.google.com/search?hl=en&q=hello+world+site:mywebsite.com
Для выбора конкретного языка, например, Итальянский, используйте параметр lr
запроса:
lr=lang_it
Можно также выбрать страницы, опубликованные в определенном географическом регионе, с помощью параметра cr
. Например, чтобы найти все страницы, опубликованные в Италии:
cr=countryIT
Я надеюсь, что вы знаете, что не с помощью веб-формы и соскабливания страницы результатов нарушает Googles Условия эксплуатации. – Filburt
@Filburt Спасибо! Ты помнишь это мне! Однако мой вопрос касается того, как сделать что-то, а не знать, нарушает ли это условия Google! Я тестирую прототип. Google уже способен защитить себя от меня :) – JeanValjean