30.
Принципы работы современных поисковых Интернет-систем.
По своей сути поисковые системы,
каталоги и метапоисковые системы являются специализированными базами данных, в
которых хранится информация о других сайтах Internet. От традиционных
информационных систем они отличаются тем, что хранят не сами документы, а
информацию о документах и ссылки на них. В ответ на запрос пользователя
выдается список адресов, где может присутствовать запрашиваемая информация.
Обычно поиск производится по словам и фразам, однако в некоторых «продвинутых»
системах и каталогах можно составлять весьма сложные запросы на специальном
языке.
Для простоты восприятия информации о классификации поисковых
систем была составлена следующая схема:

Ранжирование по группам производилось
по следующим признакам: форма и способ занесения информации о сайтах и
возможности, предоставляемые для нахождения необходимой информации.
В самую обширную зону А входят сайты с примитивными
каталогами. Сайты в этих каталогах либо вообще не сортированы, либо сортировка
производится по нескольким общим группам.
В каталогах (зона В) информация о сайтах Internet,
так же как в подборках, упорядочена по категориям специально разработанного
дерева-рубрикатора, но, в отличие от предыдущего случая, в них имеются
механизмы поиска информации по запросам. В основную массу каталогов информация
заносится авторами сайтов, сообщающими о себе при регистрации необходимые
сведения. Как правило, работа поисковых механизмов ограничивается поиском лишь
в кратких аннотациях сайтов.
Особого внимания заслуживают
современные каталоги (зона С), отличающиеся расширенной, а иногда и полной
индексацией содержимого сайтов и мощными механизмами контекстного поиска в
индексных базах.
Основное отличие поисковых
систем (зона D) от каталогов - автоматический «робот», или «паук»,
который постоянно сканирует Internet, ищет в нем новые сайты, накапливает эту
информацию в индексных файлах базы данных. Информация в Internet-каталоги, так
же как в традиционные библиотечные, заносится либо авторами новых сайтов, либо
обслуживающим персоналом каталога. Пользование поисковыми системами и
каталогами абсолютно бесплатно, вот почему в настоящее время это самый
доступный и демократичный вид информационных ресурсов.
Внешние факторы ранжирования подразделяются на 2 группы:
1.
Факторы
ссылочного ранжирования.
2.
Показатель
авторитетности страницы.
Факторы ссылочного ранжирования.
Суммарная точка зрения на эти факторы утверждает, что к
факторам ссылочного ранжирования относят такие факторы, как:
·
релевантность
текста ссылок поисковому запросу;
·
релевантность
сайтов, на страницах которых проставлены исходящие ссылки;
·
популярность
ссылок в тематическом сообществе;
·
исходящие
ссылки со страницы.
·
некоторые
другие фатроры.
Исходя из этого утверждения, можно сделать вывод:
Для того, чтобы повысить значение факторов ссылочного
ранжирования, необходимо обмениваться ссылками с сайтами с высокой ссылочной
популярностью (PR, тИЦ). Причем текст ссылки на страницу будет учитываться в
том случае, если он соответствует поисковому запросу.
Показатель авторитетности страницы.
Обобщенно этот показатель можно представить в виде следующей
формулы:
![]()
где
·
PRа
- PageRank рассматриваемой страницы,
·
d
- коэффициент затухания (означает вероятность того, что пользователь, зашедший
на страницу, перейдет по одной из ссылок, содержащейся на этой странице, а не
прекратит путешествие по сети, обычно устанавливается равным 0,85),
·
PRi
- PageRank i-й страницы, ссылающейся на страницу а,
·
Ci
- общее число ссылок на i-й странице.
Чтобы определить важность этого фактора, нужно обладать хотя
бы общими знаниями о Педж ранге страницы (PR). Согласно этой теории, существует
прямая зависимость вероятности нахождения пользователя на страницы веб ресурса
от количества внешних ссылок на эту страницу. В этом контексте PR страницы -
показатель популярности (авторитетности) страницы.
Но если на странице располагается несколько внешних ссылок,
то вероятность перехода по ним делится пропорционально их количеству. В
обобщенной формуле это значение Ci.