30. Принципы работы современных поисковых Интернет-систем.

По своей сути поисковые системы, каталоги и метапоисковые системы являются специализированными базами данных, в которых хранится информация о других сайтах Internet. От традиционных информационных систем они отличаются тем, что хранят не сами документы, а информацию о документах и ссылки на них. В ответ на запрос пользователя выдается список адресов, где может присутствовать запрашиваемая информация. Обычно поиск производится по словам и фразам, однако в некоторых «продвинутых» системах и каталогах можно составлять весьма сложные запросы на специальном языке.

Для простоты восприятия информации о классификации поисковых систем была составлена следующая схема:

классификация поисковых систем

Ранжирование по группам производилось по следующим признакам: форма и способ занесения информации о сайтах и возможности, предоставляемые для нахождения необходимой информации.

В самую обширную зону А входят сайты с примитивными каталогами. Сайты в этих каталогах либо вообще не сортированы, либо сортировка производится по нескольким общим группам.

В каталогах (зона В) информация о сайтах Internet, так же как в подборках, упорядочена по категориям специально разработанного дерева-рубрикатора, но, в отличие от предыдущего случая, в них имеются механизмы поиска информации по запросам. В основную массу каталогов информация заносится авторами сайтов, сообщающими о себе при регистрации необходимые сведения. Как правило, работа поисковых механизмов ограничивается поиском лишь в кратких аннотациях сайтов.

Особого внимания заслуживают современные каталоги (зона С), отличающиеся расширенной, а иногда и полной индексацией содержимого сайтов и мощными механизмами контекстного поиска в индексных базах.

Основное отличие поисковых систем (зона D) от каталогов - автоматический «робот», или «паук», который постоянно сканирует Internet, ищет в нем новые сайты, накапливает эту информацию в индексных файлах базы данных. Информация в Internet-каталоги, так же как в традиционные библиотечные, заносится либо авторами новых сайтов, либо обслуживающим персоналом каталога. Пользование поисковыми системами и каталогами абсолютно бесплатно, вот почему в настоящее время это самый доступный и демократичный вид информационных ресурсов.

Внешние факторы ранжирования подразделяются на 2 группы:

1.      Факторы ссылочного ранжирования.

2.      Показатель авторитетности страницы.

Факторы ссылочного ранжирования.

Суммарная точка зрения на эти факторы утверждает, что к факторам ссылочного ранжирования относят такие факторы, как:

·        релевантность текста ссылок поисковому запросу;

·        релевантность сайтов, на страницах которых проставлены исходящие ссылки;

·        популярность ссылок в тематическом сообществе;

·        исходящие ссылки со страницы.

·        некоторые другие фатроры.

Исходя из этого утверждения, можно сделать вывод:

Для того, чтобы повысить значение факторов ссылочного ранжирования, необходимо обмениваться ссылками с сайтами с высокой ссылочной популярностью (PR, тИЦ). Причем текст ссылки на страницу будет учитываться в том случае, если он соответствует поисковому запросу. 

Показатель авторитетности страницы.

Обобщенно этот показатель можно представить в виде следующей формулы:

где

·        PRа - PageRank рассматриваемой страницы,

·        d - коэффициент затухания (означает вероятность того, что пользователь, зашедший на страницу, перейдет по одной из ссылок, содержащейся на этой странице, а не прекратит путешествие по сети, обычно устанавливается равным 0,85),

·        PRi - PageRank i-й страницы, ссылающейся на страницу а,

·        Ci - общее число ссылок на i-й странице. 

Чтобы определить важность этого фактора, нужно обладать хотя бы общими знаниями о Педж ранге страницы (PR). Согласно этой теории, существует прямая зависимость вероятности нахождения пользователя на страницы веб ресурса от количества внешних ссылок на эту страницу. В этом контексте PR страницы - показатель популярности (авторитетности) страницы.

Но если на странице располагается несколько внешних ссылок, то вероятность перехода по ним делится пропорционально их количеству. В обобщенной формуле это значение Ci.

 

Hosted by uCoz