2009-07-28 2 views
1

Я планирую сделать детектор плагиата в качестве проекта моего последнего проекта в области компьютерных наук, для которого я хотел бы принять ваши предложения о том, как это сделать.Как разработать детектор плагиата?

Я был бы признателен, если вы могли бы предложить, какие все поля в CS, я должен сосредоточиться на, а также язык, который будет наиболее подходящим для реализации в.

+17

Вы украли это из http://stackoverflow.com/questions/1085048/how-would-you-code-an-anti-plagiarism-site? – skaffman

+6

Вы украли это из stackoverflow.com/questions/1085048/...? – MusiGenesis

+5

Вы украли это из stackoverflow.com/questions/1085048/ ...? –

ответ

6

язык почти не имеет значения. Another questions существует, что обсуждает это немного больше. В принципе, предлагаемый метод заключается в использовании Google. Извлеките части целевого текста и найдите их в Google.

-2

Вы лучше попробуйте python, потому что его легко разработать программу, используя это. Я также делаю проект на детекторе плагиата. Я предлагаю u, чтобы токенизировать строку first..actually это сложно, но это путь, если ур пытается разработать исходный код, иначе, если ур разрабатывает детектор плагиата для текстового файла, используйте метод подобия косинуса, метод LCS или просто рассматривая положение.

0

Я делаю плагиатор, используя Python в качестве хобби проекта. Следующие шаги должны соблюдаться:

  1. токенизировать документа.

  2. Удалите все слова остановки, используя библиотеку NLTK.

  3. Используйте библиотеку GenSim и найдите наиболее релевантные слова, построчно. Это можно сделать, создав LDA или LSA документа.

  4. Используйте Google Search API для поиска этих слов.

Примечание: вы могли бы выбрать для использования API Google и поиск всего документа сразу. Это будет работать, когда вы работаете с меньшим объемом данных. Однако при создании плагиатора для сайтов и веб-данных, нам нужно будет применять алгоритмы NLTK.

API поиска Google приведет к тому, что верхние статьи имеют те же слова, которые были приведены в LDA или LSA из функций библиотеки GenSim Python.

Надеюсь, это помогло.

Смежные вопросы