Алгоритм PageRank: различия между версиями

Перейти к навигации Перейти к поиску
м
(Новая страница: «== Постановка задачи == Получив запрос пользователя, существующие службы веб-поиска извлекают все веб-страницы, содержащие термины запроса, что для большинства поисковых запросов приводит к получению огромного количества веб-страниц. Поэтому очень важ...»)
 
Строка 1: Строка 1:
== Постановка задачи ==
== Постановка задачи ==
Получив запрос пользователя, существующие службы веб-поиска извлекают все веб-страницы, содержащие термины запроса, что для большинства поисковых запросов приводит к получению огромного количества веб-страниц. Поэтому очень важно упорядочить или ранжировать полученные документы с целью размещения наиболее релевантных документов на первом месте. Часто при ранжировании используется два типа информации: (1) информация, специфичная для запроса, и (2) информация, не зависящая от запроса. Специфичная для запроса часть пытается измерить, насколько документ релевантен запросу. Поскольку она в значительной степени зависит от содержания страницы, то в основном находится под контролем автора страницы. Независимая от запроса информация пытается оценить качество страницы в целом. Для получения объективной оценки качества страницы важно, чтобы информация, не зависящая от запроса, включала в себя показатель, не контролируемый автором. Таким образом, проблема состоит в том, чтобы найти такую меру качества страницы, которая (а) не поддавалась бы легким манипуляциям со стороны автора веб-страницы и (б) хорошо работала бы для всех веб-страниц. Это непростая задача, поскольку веб-страницы крайне неоднородны.
Получив запрос пользователя, существующие службы веб-поиска извлекают все веб-страницы, содержащие термины запроса, что для большинства поисковых запросов приводит к получению огромного количества веб-страниц. Поэтому очень важно упорядочить или ''ранжировать'' полученные документы с целью размещения наиболее релевантных документов на первом месте. Часто при ранжировании используется два типа информации: (1) информация, специфичная для запроса, и (2) информация, не зависящая от запроса. Специфичная для запроса часть пытается измерить, насколько документ релевантен запросу. Поскольку она в значительной степени зависит от содержания страницы, то в основном находится под контролем автора страницы. Независимая от запроса информация пытается оценить качество страницы в целом. Для получения объективной оценки качества страницы важно, чтобы информация, не зависящая от запроса, включала в себя метрику, не контролируемую автором. Таким образом, задача состоит в том, чтобы найти такую меру качества страницы, которая (а) не поддавалась бы легким манипуляциям со стороны автора веб-страницы и (б) хорошо работала бы для ''всех'' веб-страниц. Это непростая задача, поскольку веб-страницы крайне неоднородны.


== Основные результаты ==
== Основные результаты ==
4846

правок

Навигация