2013-03-29 3 views
3

Я создаю небольшую систему обнаружения плагиата в php для практики. Ну, я сделал некоторые исследования в Google, предположил, что я могу использовать API Google API (API пользовательского поиска) для создания программного обеспечения для обнаружения плагиата.Как использовать Google API для обнаружения плагиата в php

Well I found this question very helpful [How would you code an anti plagiarism site?]

мне удалось получить результат поиска от Google API, используя следующие коды

<?php 
ini_set('max_execution_time',300); 
require_once '../../src/Google_Client.php'; 
require_once '../../src/contrib/Google_CustomsearchService.php'; 
session_start(); 

$client = new Google_Client(); 
$client->setApplicationName('Google CustomSearch PHP Starter Application'); 
$client->setDeveloperKey('MY_DEVELOPER_KEY'); 
$search = new Google_CustomsearchService($client); 

$to_search="This is the text that should be searched in google so that the result that  I obtain can be used by my codes to perform plagarism analysis"; 

$result = $search->cse->listCse($to_search, array('cx' => 'MY_SEARCH_ENGINE_ID')); 
for($i=0; $i<6; $i++) 
{ 

    print "<pre>" . print_r($result, true) . "</pre>"; 

} 
?> 

С переменной $ результата я имею [ссылка], [фрагмент] и [HTML пропущено ], полученных из поиска google. используя код ниже

$result['items'][$i]['snippet']; 
$result['items'][$i]['link']; 

Здесь $ я это целое значение, полученное из цикла.

Проблема заключается в том Как вы знаете, что я могу отправить только короткое ключевое слово или несколько строк для поиска в Google, но не огромный текст, так я должен SubStr большие куски текста на небольшие линии, а затем запустить несколько запросов ? или я должен сделать что-то еще? Фрагмент и значение ссылки, которое я получу, могут быть проанализированы для плагиата. Это привело к огромному количеству запросов, которые переполняли предел сто запросов в день.

Пожалуйста, предложите мне правильный способ делать то, что я должен делать. Как я делаю запрос к Google, а затем анализирую огромный текст с пользовательским вводом для плагиата, Правильно ли это?

+0

http://stackoverflow.com/questions/12741008/how-to-build-a-plagiarism-detection-tool-using-php –

+0

Возможный дубликат [Анализатор плагиата (по сравнению с веб-контентом)] (http: /stackoverflow.com/questions/1567335/plagiarism-analyzer-compared-against-web-content) –

+1

Я не понимаю, как это дублируется? Ответ, который я ищу, совершенно другой, я думаю.Я также не хочу создавать веб-искатель, и я не прошу вашего кодирования. Мне нужно предложение, если мой подход нечеткий или тонкий. потому что я не нашел никакой ссылки, которая могла бы помочь мне в этом. Если у вас есть ссылки, я был бы более чем счастлив. –

ответ

1

То, как я бы это сделал, было бы для Google на странице Title, в которой указаны точные соответствия. Скорее всего, если кто-то украл ваш контент, он использовал один и тот же заголовок.

Здесь вы можете вытащить страницу с возможным украденным контентом и сравнить.

Более сложный метод заключается в поиске собственного контента для статистически маловероятных слов и фраз. Слова с более низким, чем в среднем, современным уровнем использования. Затем Google для контента, содержащего все наименее вероятные слова. Однако это будет намного сложнее, чем первый подход, поскольку вам нужно будет создать большую базу данных с низкими поисковыми словами и чрезмерно используемыми словами в Google.

Третья методика заключается в поиске содержимого для пропущенных слов. Затем попросите свой скрипт Google пропустить орфографию и искать совпадения.

Четвертый - который является профилактическим и лучше всего работает при остановке автоматических скреперов, заключается в том, чтобы ваша система придумала составленное слово - строку букв и цифр, которая вряд ли будет иметь какие-либо результаты поиска вообще. Затем, чтобы сценарий наблюдал за новыми результатами поиска.

Комбинация вышеуказанного, вероятно, создала бы действительно блестящий сценарий и одну шляпу, которую я бы призвал выпустить в качестве открытого источника.

Удачи вам в вашем проекте.

+1

Хорошо, спасибо, Мэтью, за ваш ответ. Ваш совет сделан. Я обязательно придумаю что-то новое из этого + исследования. –

+1

Как у вас? Мне бы хотелось увидеть, с чем вы столкнулись. –

Смежные вопросы