4846
правок
Irina (обсуждение | вклад) (Новая страница: «== Постановка задачи == Получив запрос пользователя, существующие службы веб-поиска извлекают все веб-страницы, содержащие термины запроса, что для большинства поисковых запросов приводит к получению огромного количества веб-страниц. Поэтому очень важ...») |
Irina (обсуждение | вклад) |
||
| Строка 1: | Строка 1: | ||
== Постановка задачи == | == Постановка задачи == | ||
Получив запрос пользователя, существующие службы веб-поиска извлекают все веб-страницы, содержащие термины запроса, что для большинства поисковых запросов приводит к получению огромного количества веб-страниц. Поэтому очень важно упорядочить или ранжировать полученные документы с целью размещения наиболее релевантных документов на первом месте. Часто при ранжировании используется два типа информации: (1) информация, специфичная для запроса, и (2) информация, не зависящая от запроса. Специфичная для запроса часть пытается измерить, насколько документ релевантен запросу. Поскольку она в значительной степени зависит от содержания страницы, то в основном находится под контролем автора страницы. Независимая от запроса информация пытается оценить качество страницы в целом. Для получения объективной оценки качества страницы важно, чтобы информация, не зависящая от запроса, включала в себя | Получив запрос пользователя, существующие службы веб-поиска извлекают все веб-страницы, содержащие термины запроса, что для большинства поисковых запросов приводит к получению огромного количества веб-страниц. Поэтому очень важно упорядочить или ''ранжировать'' полученные документы с целью размещения наиболее релевантных документов на первом месте. Часто при ранжировании используется два типа информации: (1) информация, специфичная для запроса, и (2) информация, не зависящая от запроса. Специфичная для запроса часть пытается измерить, насколько документ релевантен запросу. Поскольку она в значительной степени зависит от содержания страницы, то в основном находится под контролем автора страницы. Независимая от запроса информация пытается оценить качество страницы в целом. Для получения объективной оценки качества страницы важно, чтобы информация, не зависящая от запроса, включала в себя метрику, не контролируемую автором. Таким образом, задача состоит в том, чтобы найти такую меру качества страницы, которая (а) не поддавалась бы легким манипуляциям со стороны автора веб-страницы и (б) хорошо работала бы для ''всех'' веб-страниц. Это непростая задача, поскольку веб-страницы крайне неоднородны. | ||
== Основные результаты == | == Основные результаты == | ||
правок