"Анатомия" поисковой машины

Авторы и исследователи (и более всего, конечно же, поисковые оптимизаторы) пытались разобраться в компонентах поисковых машин, чтобы объяснить, что на самом деле представляет собой процесс от момента начала "ползания" по сети до нахождения требуемого результата. Хорошая поисковая машина, работающая со всей своей оптимальной производительностью, должна обеспечивать эффективный поиск веб-страниц, полный охват сети, содержать новейшую информацию, осуществлять непредвзятый равноправный доступ ко всем данным, иметь удобный интерфейс для пользователей (которые могут обращаться с часто употребляемыми или типичными запросами) и выдавать наиболее подходящие результаты на текущий момент времени.

Обеспечение содержательного доступа к большим объемам информации — это трудная задача. Несмотря на множество проведенных исследований, мы все еще имеем слабое представление о семантике человеческого языка. Наиболее успешные методы и подходы к информационному поиску, распределение документов по категориям основаны на технологиях статистической обработки информации.

Выделим пять наиболее важных компонентов поисковых систем
Модуль краулера/спайдера, Модуль склада/базы данных, Модуль индексатора/анализа ссылок, Модуль поиска/ранжирования, Пользовательский интерфейс запроса.

Каждая поисковая машина имеет свою уникальную систему Методы "ползания" и ранжирования веб-страниц, реализованные в конкретной ПМ, составляют коммерческую тайну И хотя применяемые алгоритмы могут отличаться один от другого, на практике между ними много схожего в том, каким образом они ведут построение системы индексов.
Поисковые машины типа "слайдер" исследуют веб-страницы тремя способами:
- при нахождении информации о вашем сайте на других страницах сети и извлечения из них ссылок, чтобы следовать по ним (например, выбирая их из каталогов);
- из списка URL, полученного при предыдущем исследовании сети (используя первые результаты проведенных поисков);
- среди URL, добавленных искусственно веб-мастерами непосредственно в поисковую машину (при помощи операции Add URL).

Существует немало проблем, с которыми сталкиваются слайдеры поисковых машин из-за больших размеров сети, ее непрерывного роста и постоянных изменений. Как вы теперь знаете, в отличие от традиционного поиска информации, где все данные собраны в одном месте и готовы к проверке, информация в сети распределена между миллионами различных интернет-
серверов. Это означает, что данные должны быть сначала собраны и систематически распределены по большим "складам", прежде чем они будут доступны для обработки и индексации.
Кроме того, хорошая ПМ должна иметь эффективные фильтры, позволяющие автоматически избавиться от миллионов ненужных страниц и избежать множества других трудностей, которые могут быть созданы владельцами веб-сайтов.
Современные поисковые машины умеют сами себя подстраивать, т.е. определять частоту сканирования того или иного сайта в зависимости от множества факторов, например, скорости обновления веб-ресурса, его рейтинга и т п.

Существует много различных типов краулеров. Есть те, которые применяются непосредственно с рабочего стола вашего компьютера, и такие, которые собирают адреса электронной почты или разного рода коммерческие краулеры, которые выполняют исследование, измеряют параметры сети и выявляют работу "шпионских" программ.
Краулеры, слайдеры и роботы — это автоматизированные программы, которыми обычно управляют поисковые машины, "ползающие" по ссылкам сети и собирающие первичные текстовые данные и другую информацию для индексации.
Самые первые краулеры были запрограммированы для довольно-таки общих целей. Они обращали меньше внимания на качество или содержание страниц, а больше — на их количество. Их цель — собрать как можно больше страниц. Однако объем сети был тогда гораздо меньшим, поэтому они были достаточно результативными с точки зрения обнаружения и индексации новых веб-страниц.

С развитием сети краулеры столкнулись с тремя основными проблемами:
масштабируемостью, отказоустойчивостью и ограничением пропускной способности. Быстрый рост сети опередил возможности систем, которые не были достаточно подготовлены к доскональному исследованию загружаемой информации. Попытка управлять набором программ одновременно, учитывая все эти проблемы, не повреждая при этом систему, стала невозможной.

В течение последних нескольких лет краулеры были полностью изменены. Хотя они все еще используют ту же самую базовую технологию, что и первые поисковики, но теперь действуют более индивидуально и реализуют собственные разноуровневые системы.
Хотя "ползание" по сети — очень быстрый процесс, фактически, краулер совершает те же действия, что и рядовой серфер-пользователь. Краулер начинает или с одного URL, или с набора страниц, например, внесенных в определенный каталог, которые он затем загружает, извлекает гиперссылки и после этого "ползет" к сайтам, на которые указывают эти ссылки. Как только краулер "натыкается" на страницу без других ссылок, по которым он может последовать, он возврашается на один уровень назад и переходит к пропущенным ранее ссылкам или к тем, которые были запрограммированы заранее в очереди для следующего раза. Процесс повторяется от сервера к серверу, пока на страницах больше нечего будет загрузить, или пока некоторые ресурсы (время, ограничение пропускной способности) будут достигнуты или исчерпаны.
Слово "краулер" почти всегда употребляется в единственном числе, однако большинство поисковых машин имеет множество краулеров с целым "флотом" агентов, выполняющих масштабную работу. Например, Google, как поисковая машина нового поколения, начавшаяся с четырех краулеров, каждый раз открывает приблизительно триста ссылок. На пиковых скоростях они загружали информацию более чем из 100 страниц за секунду. В настоящее время Google работает на трех тысячах компьютерах с системой Linux, общий объем винчестеров которых более 90 Тбайт Чтобы не отстать от роста сети, ежедневно к серверу добавляется 30 новых компьютеров. Для обследования сети краулеры используют традиционные алгоритмы. Граф сети включает "узлы" и "края" (nodes and edges). Узлы — это URL, а края — ссылки, вложенные в страницы. Края — это передовые ссылки ваших веб-страниц, которые указывают на другие страницы, и ссылки возврата, которые указывают путь назад на ваши страницы с любого другого места сайта.

Граф сети может быть представлен математически на основе алгоритмов, где определено пересечение или "начальной широты", или "начальной глубины" Поиск исходя из "начальной широты" означает, что краулер восстанавливает все страницы вокруг отправной точки ползания прежде ссылок, ведущих еще дальше от начала. Это самый общий путь, по которому слайдеры следуют за ссылками. Поиск исходя из "начальной глубины" обеспечивает следование за всеми ссылками, начиная с первой ссылки с первой страницы, затем с первой ссылки на второй странице и так далее. Как только первая ссылка на каждой странице будет посещена, он перемещается на вторую ссылку, а затем — на каждую последующую. Метод поиска исходя из "начальной широты" позволяет уменьшить нагрузку на серверы. Метод "начальной глубины" программируется легче предыдущего, но может привести к добавлению менее важных страниц и отсутствию свежих результатов поиска. Существует вопрос, насколько глубоко краулер может проникать в веб-сайт?

Многое зависит от содержания сайтов, с которыми сталкиваются краулеры, а также от того, какие страницы поисковая машина уже имеет в своей базе данных. Во многих случаях более важная информация находится в начале страницы, и чем дальше идти от начала, тем менее важные сведения там содержатся. Логика здесь в том, что более важную информацию для пользователя стараются всегда расположить в начале чего бы то ни было. Стоит только зайти на сайт, как вы обнаружите, что во многих из них нет четкой структуры, правил и стандартов, однако часто именно ссылки, содержащие важные для пользователя данные, располагаются в начале сайта.
Поисковые машины вообще предпочитают идти по более коротким URL на каждом посещенном сервере, считая, что URL с более короткими компонентами, вероятно, будет более общими (или полезными) страницами.
Это означает, что адрес
http://www.mycompany.ru/blue-widgets.html
вероятно, будет считаться более важным, чем
http://www.mycompany.ru/products/webcatalog/widgets/blue/spec-series9.html

или еще более длинный адрес, который ведет вглубь веб-сайта. Слайдеры могут быть ограничены определенным количеством подразделов (слешей) сайта, по которым они будут искать информацию. Десять слешей — это максимальная глубина, средней же глубиной, как правило, считается три слеша.
Важные страницы, находящиеся более глубоко на сайте, его владельцу вероятно, придется напрямую регистрировать в поисковой машине. С постоянным развитием сети и связанных с ней технологий, таких как ASP, PHP и Cold Fusion, часто бывает, что многие важные страницы сейчас "скрыты" в глубине сетевых баз данных, но это уже не относится к алгоритмам поисковых систем. 

10.03.12  02:35 Просмотров: 3181 Печать

В этом разделе

Вход для пользователей
Сожалеем!
Комментарии могут добавлять только зарегистрированные пользователи.
Имя
Пароль

 Медиа архив
03.02.12
Рейтинг : Хорошо
Красота
20.01.12
Рейтинг : Средне
Движение
20.01.12
Рейтинг : Хорошо
Девушка
20.01.12
Рейтинг : Средне
Орагутан в снегу
20.01.12
Рейтинг : Хорошо
© 2023 All right reserved www.shack.ru [ PG.t : 0.16 | DB.q : 10 | FR.q : 0 | DB.t : 0.00 ]