2010-01-09 3 views
6

Вы, ребята, знаете, где я могу найти диаграмму анализатора поисковых систем? Мне нужно понять, как он обрабатывает ввод пользователя. какие функции/алгоритмы используются? условия. и т.д.Блок-схема анализатора поисковых систем

Это не должно быть Google.

ОБНОВЛЕНО вопрос поисковой системы анализатору

ответ

6

Вам нужно лучшее представление о поисковых системах в первую очередь. Обычно есть

1) веб-искатель, который получает документы, которые вы хотите добавить в пространство поиска. Это обычно полностью выходит за рамки того, что вы называете «поисковой системой».

2) анализатор, который принимает документ и разбивает его на индексируемые фрагменты текста. Если обычно работает с разными файловыми форматами, человеческими языками и выполняется предварительная обработка текста в некоторых фиксированных записях и тексте потока. Здесь также применяются лингвистические алгоритмы (например, stemmers - поиск Porter Stemmer, чтобы получить простой).

3) Индексатор, который может быть таким же простым, как перевернутый список слов на один документ или сложным, как вы хотите, если попытаетесь быть таким умным, как google. Построение индекса - действительно волшебная часть успешной поисковой системы. Обычно есть несколько алгоритмов ранжирования, которые объединены.

4) Интерфейс с дополнительным языком запросов. Это то, что google действительно плохо, но, как вы можете видеть на успех в googles, это может быть не так важно для 98% людей. Но я действительно скучаю по этому поводу.

Я думаю, что вы просите (3) индексатора. В основном есть 2 разных типа алгоритмов, которые вы найдете в классической литературе по поиску информации. Векторная космическая модель и логический поиск. Позже это легко, просто проверьте, находятся ли слова поиска внутри документа и возвращают логическое значение. Каждому поисковому термину может быть присвоена соответствующая вероятность. И для разных поисковых терминов вы можете использовать байесовскую вероятность для суммирования соответствия и добавления возврата наивысших ранжированных документов. Векторная модель рассматривает документ как вектор всех его слов, вы можете построить скалярный векторный продукт между документами, чтобы судить, находятся ли они близко друг к другу - это гораздо более сложный тероид. Отцом IR (поиск информации) был Джеральд Сальтон, вы найдете много литературы под его именем.

Это было состояние искусства искусственного интеллекта до 1999 года (я написал дипломную работу по поисковой системе новостей usenet в 1998 году). Затем пришел google, и вся теория перешла в мусорную корзину с академической глупостью и пратными ошибками.

Google не основывался на теории ИК-диапазона. Прочтите ссылку, которую Шриранган дал вам. Его просто функция ad hock актуальна для многих источников. Вы не найдете ничего в этой области рядом с белой бумажной рекламой blablabla. Эти алгоритмы - деловая тайна и капитал компаний поисковой системы.

Для простых поисковых систем посмотрите библиотеку lucence или на dtsearch, который всегда был моим выбором для встраиваемой библиотеки поисковых систем.

В мире с открытым исходным кодом действительно нет много кода примера или доступной информации об инфракрасной технологии. Большинство из них, как lucense, просто реализуют самые примитивные операции.Вы должны купить книги и пойти в университетскую библиотеку, чтобы получить доступ к научной литературе.

В литературе я бы рекомендовал, начиная с этой книгой link text alt text http://ecx.images-amazon.com/images/I/41HKJYHTQDL._BO2,204,203,200_PIsitb-sticker-arrow-click,TopRight,35,-76_AA240_SH20_OU01_.jpg

+0

@Lothar спасибо за очень подробный ответ. знаете ли вы о каких-либо хороших статьях или книгах о парсерах? как разбор текста отличается от компилятора, разбора языка программирования? – forme

+0

Хорошо, если вам действительно нужна лингвистическая обработка естественного языка, вы должны прочитать «http://www.amazon.com/Natural-Language-Processing-Python-Steve/dp/0596516495/ref=cm_cr_pr_sims_t» и/или книгу «Обработка текста» в Python ". Это даст вам достаточно базового понимания, чтобы найти правильные поисковые термины для Google или добавить больше литературы. К сожалению, самый интересный материал недоступен в Интернете. – Lothar

+0

Мне любопытно сейчас :) (собирается в местную университетскую библиотеку ...) – forme

Смежные вопросы