1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех

^ 1.2. Как устроена поисковая система Яndex

Поисковая система Яndex относится ко второму рассмотренному ранее типу поисковых систем. У Яndexа есть свои пауки агенты, есть собственный Индекс и поисковый механизм. Эта поисковая система нацелена сначала 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех на российскую часть глобального Веба, т. е. индексируются в ней русские веб-сайты, расположенные в доменах ru и su. Изготовлены маленькие исключения для более знатных забугорных веб-сайтов. Труднее с русскими веб-сайтами 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех, которые зарегистрированы в интернациональных либо региональных (муниципальных) доменах других государств – com, org, de, us и других, но все они же попадают в Индекс и учитываются при поиске.

Большая часть важных забугорных нерусскоязычных веб 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех-сайтов может быть найдено по ссылке, при всем этом, в отличие от русских веб-сайтов, в Индекс они не попадают. Упрощается ситуация в этом случае, когда у компаний, таких как Бмв 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех, IBM и многих других, возникают русские версии веб-сайтов, без заморочек индексируемые Yandex'ом.

Поисковая система – самый нужный ресурс Yandex'а. Раз в день его посещают около 4 с половиной миллионов гостей 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех, при всем этом количество просмотренных поисковых страничек приближается к сорока миллионам. При всем этом юзеры, выполняющие на нем поиск, этого не замечают – складывается воспоминание, что Yandex работает персонально для каждого из их 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех.

Так, при запросе средней "тяжести", другими словами при поиске не очень частотного слова, время отклика системы (без учета времени передачи данных по каналу от поисковой машины к пользовательскому компу) исчисляется десятыми 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех толиками секунды.

В критериях неизменного роста количества юзеров и их запросов главной задачей поисковой системы является сохранение применимых исходя из убеждений юзеров скорости и полноты выполнения запросов. Эта задачка решается несколькими методами, любой из которых 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех является нужным, но не достаточным в отрыве от других. Методы заслуги больших результатов на сей день используются последующие:

□ оптимизация базисных поисковых алгоритмов и архитектуры поиска;

□ постоянное повышение мощностей вычислительных 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех ресурсов поисковой машины;

□ внедрение строительной способности масштабирования системы.

Оптимизация поисковых алгоритмов проводится повсевременно. Результаты таких работ вводятся в действие до 2-ух раз в год. Сказывается их внедрение на уменьшении нагрузки на поисковую систему (в 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех год данная величина составляет 20–30 %), также на уменьшении времени отклика.

Повышение мощности – это неизменное обновление применяемого оборудования. Сюда заходит и переход на более массивные микропроцессоры, повышение оперативки, повышение объемов дисковых хранилищ. Метод 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех хотя и нужный, но очень накладный. Результативность выполненного апгрейда можно косвенно оценить повышением объема поисковой базы, находящейся в его распоряжении.

3-ий метод – внедрение мастшабируемости системы. В 2-ух словах сущность его состоит в том, что 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех каждый уровень системы распараллеливается на несколько схожих узлов. К примеру, при наличии 10 поисковиков, обрабатывающих поступающие запросы, очередной запрос будет направляться на тот из их, которых на этот момент времени будет свободен 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех.

Аналогично обстоит дело и со сбором инфы. Этим занимается робот паук, который обходит странички с данными URL и закачивает их в базу данных, а потом архивирует и перекладывает в хранилище суточными порциями. Бот 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех располагается на нескольких машинах, и любая из их делает свое задание. Так, бот на одной машине может качать новые странички, которые еще не были известны поисковой машине, а на 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех другой – странички, которые ранее уже были скачаны более месяца, да и менее года вспять.

Хранилище у всех машин едино.


По мере надобности работу можно распределить другим методом, к примеру, просто распределив меж роботами всю 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех работу, беря во внимание только ее большие характеристики. Параллельная работа программки позволяет просто выдерживать дополнительную нагрузку – при увеличении количества страничек, которые необходимо обойти боту, довольно легко распределить задачку на большее число машин.

В 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех хранилище информация в сжатом виде собирается и разбивается на части. Эти части равномерно распределяются меж обилием машин, на которых запущена программа индексатор. Как индексатор на одной из машин кончает 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех обработку очередной части страничек, он обращается за последующей порцией. В итоге на первом шаге формируется много малеханьких индексных баз, любая из которых содержит информацию о некой части Веба. При увеличении нагрузки на 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех машины, специализирующиеся индексированием, неувязка может быть решена обычным добавлением машин в систему.

После того как все части инфы обработаны, начинается объединение (слияние) результатов. Основная база участвует в анализе как одна из частей 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех нового индекса. Так, если соединяются воединыжды 70 новых частей, то в анализе участвует 71 кусок (70 новых + основная база предшествующей редакции). Особая программка ("сливатор") составляет таблицы перенумерации документов базы. Содержимое всех частей соединяется воединыжды. Посреди страничек с схожими 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех адресами выбирается более свежайшая версия; если при скачивании URL последней информацией была ошибка 404 (запрашиваемая страничка не существует), она временно удаляется из индексной базы. Параллельно осуществляется склейка дублей – странички, которые имеют однообразное 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех содержимое, но разные URL, соединяются воединыжды в один документ.

Сборка единой базы из частичных индексных баз представляет собой обычной и резвый процесс. Сравнение страничек не просит никакой умственной обработки и происходит 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех со скоростью чтения данных с диска. Если инфы, которая генерируется на машинах индексаторах, выходит очень много, то процедура "сливания" частей проходит в несколько шагов. Сначала частичные индексы соединяются воединыжды в несколько промежных 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех баз, а потом промежные базы и основная база предшествующей редакции пересекаются. Таких шагов может быть сколько угодно. Промежные базы могут соединяться в другие промежные базы, а уже позже объединяться совсем. Поэтапная работа 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех некординально замедляет формирование одного индекса и не отражается на качестве результатов.

^ Источник: "Механизмы работы поисковой системы Rambler" (http://www.rambler.ru/doc/architecture.shtml).


А вот что ведали о решении подобных задач 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех на Yandex'е.


Если применить к поиску на Yandex'е классические определения Distributed Information Retrieval, то можно выделить последующие приемы распараллеливания.

1. ^ Разделение коллекции документов – начиная с весны 2000 года, в Yandex'е употребляется "параллельный 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех поиск" в нескольких поисковых источниках. Параллельный поиск – это одновременный поиск в специализированных базах (коллекциях), предлагаемых поисковой машиной. Обычно, источник – это отдельная база маленького размера, хорошая от "большой" базы документов. Предполагается 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех, что документы, индексируемые в таковой базе, имеют некую регулярную структуру. Если при поиске по обыкновенной базе находятся и документы из базы параллельного поиска, точно надлежащие запросу, то сразу (параллельно) с обыденным поисковыми результатами 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех выдается перечень из нескольких отысканных документов. База параллельных источников имеет значительно наименьший размер, чем база веб поиска. Обход и индексация документов в ней осуществляется отдельным роботом, потому обновление базы может происходить очень стремительно 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех (прямо до ежеминутного).

В "Yandex'е" есть четыре базы параллельного поиска:

• по новостям (обновление каждые 10 минут, раз в день около 3000 новостей);

• по товарным предложениям интернет магазинов (каждодневное обновление, приблизительно 300 000 продуктов 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех);

• по заголовкам статей энциклопедий (обновление раз за месяц, около 200 000 статей);

• по каталогу ("ручному" описанию веб ресурсов).

Особенный энтузиазм исходя из убеждений обычных поисковых технологий представляет техника разделения большой базы документов, другими словами фактически 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех базы веб страниц. По состоянию на 2002 год она состояла из 60 млн документов и была разбита на 30 частей.

Посреди особенностей текущей реализации разделения веб коллекции в Yandex'е можно отметить последующее:

• есть центр контроля и 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех рассредотачивания URL;

• отсутствует репликация коллекции по машинам;

• распределение документов по коллекциям случаем.

2. ^ 1-ая фаза обработки запроса: выбор коллекции, трансформации запроса – юзер может очевидно указать, в какой коллекции следует находить. Если этого не 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех изготовлено, то на базе лингвистического (поточнее, эвристического) анализа запроса Yandex в состоянии сделать допущение о приоритете спец коллекции либо подходящей к нраву запроса рубрики каталога.

3. ^ 2-ая фаза обработки запроса 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех: раздача запроса по коллекциям – обычно употребляются все коллекции. Собирающий сервер раздает в коллекции измененные запросы, в каких для каждого термина сообщается глобальное значение его оборотной частоты (IDf в определениях обычного IR). Для этого 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех на всех "собирающих" серверах хранится глобальная статистика определений. Она меняется медлительно, потому обновляется относительно изредка. Статистика подсчитывается по считающейся более универсальной – вебовской – коллекции. Таким макаром, любая поисковая система отыскивает ответ на запрос с назначенными 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех "сверху" глобальными частотами, и значения релевантности, вычисляемые в различных коллекциях, можно считать поочередными и вычисляемыми "в одной системе координат". Модификации запросов этим не ограничиваются, и для специализированных коллекций (к примеру, "энциклопедии") могут 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех быть и другими, в том числе и очень специфичными.

4. ^ 3-я фаза обработки запроса: выполнение и ранжирование запроса в коллекциях – запрос производится паралельно для всех коллекций.

Необходимо подчеркнуть, что веб коллекции документов распределены 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех по машинам произвольно и, вообщем говоря, могут быть размещены все совместно на одной машине. Слияние результатов делается на том из собирающих (метапоисковых) веб серверов, на который попадал юзер при 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех заходе по адресу www.yandex.ru. Процесс раздачи запроса, описанный тут, позволяет корректно ранжировать слитый итог. При всем этом не требуется переранжирование результатов, приобретенных из различных неоднородных коллекций с внедрением локальных IDF, также не 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех нужен динамический обмен данными меж источниками для вычисления глобальнойIDF.


1.2.1. "Пауки"

Мы ищем в Yandex'е информацию и анонсы, рисунки и значения слов, продукты и услуги. На сегодня в базе данных накоплена информация о 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех миллионах документов и веб-сайтов, неограниченном количестве новостей, графических изображений, сотках тыщ предлагаемых продуктов и услуг. За обновление инфы в ней отвечают разные боты.

Вот они, те боты, которые делают 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех основную работу по поиску и индексированию инфы:

□ Yandex/1.01.001 (compatible; Win16; I) – основной индексирующий бот;

□ Yandex/1.01.001 (compatible; Win16; P) – индексатор картинок;

□ Yandex/1.01.001 (compatible; Win16; H) – бот, определяющий зеркала веб-сайтов;

□ Yandex/1.02.000 (compatible 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех; Win16; F) – бот, индексирующий пиктограммы веб-сайтов (favicons);

□ Yandex/1.03.003 (compatible; Win16; D) – бот, обращающийся к страничке при добавлении ее через форму "Добавить URL";

□ Yandex/1.03.000 (compatible; Win16; M) – бот, обращающийся при открытии странички по ссылке "Отысканные 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех слова";

□ YaDirectBot/1.0 (compatible; Win16; I) – бот, индексирующий странички веб-сайтов, участвующих в маркетинговой сети Yandex'а.

А не считая их есть и несколько агентов, которые занимаются проверкой доступности веб-сайта 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех либо документа, на который стоит ссылка в соответственном сервисе. Их тоже несколько:

□ Yandex/2.01.000 (compatible; Win16; Dyatel; C) – "простукивалка" Yandex. Каталога. Если веб-сайт недоступен в течение нескольких дней, он снимается с публикации 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех. Как веб-сайт начинает отвечать, он автоматом возникает в Каталоге.;

□ Yandex/2.01.000 (compatible; Win16; Dyatel; Z) – "простукивалка" Yandex. Закладок. Ссылки на труднодоступные веб-сайты помечаются сероватым цветом;

□ Yandex/2.01.000 (compatible; Win16; Dyatel; D) – "простукивалка" Yandex. Директа 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех. Она инспектирует правильность ссылок из объявлений перед модерацией. Никаких автоматических действий не предпринимается;

□ Yandex/2.01.000 (compatible; Win16; Dyatel; N) – "простукивалка" Yandex. Новостей. Она сформировывает отчет для контент менеджера, который оценивает 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех масштаб заморочек и, по мере надобности, связывается с партнером.

Если о наименованиях ботов информация не является закрытой (в любом случае, ее можно найти в логах веб-сайтов, которые эти боты посещали), то сведения о 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех том, на каком сетевом адресе работает тот либо другой бот, закрыты. Связано это с необходимостью уменьшить возможность неправильного использования этой инфы в целях продвижения веб-сайтов. С этой же целью сетевые 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех адреса временами меняются.

Для чего эта информация нужна вам? Если вы являетесь обладателем веб-сайта, и у вас установлен механизм, собирающий информацию о ваших гостях, в эти данные попадет и информация 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех о посетивших ваш проект ботах. Вы будете в курсе, какие боты и когда вас посещали и какие странички просматривали.

1.2.2. Индекс

Большой объем инфы, размещенной в Вебе, приводит к разрастанию Индекса. С некой толикой 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех приближения информацию можно поделить на две категории – условно постоянную и переменную. К переменной инфы можно отнести публикации информационных изданий и подобных сервисов, записи в блогах, предложения онлайновых магазинов, другие сервисы, где информация изменяется 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех с большой частотой.

Обработка быстроменяющейся инфы востребовала другого подхода. Были разработаны новые технологии и методы, новые базы и поисковые боты. Каждой отдельной базе соответствовал свой Индекс. Поисковые базы были разработаны для 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех поиска по словарям и энциклопедиям, по каталогу веб-сайтов, по предложениям интернет магазинов, новостям и блогам.

Но какие бы новые технологии ни создавались, какими бы совершенными ни становились технические средства, объем накапливаемой 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех инфы принуждает увеличивать вычислительные мощности. Если 1-ый Индекс располагался на обыкновенном компьютере, стоявшем в буквальном смысле "в ногах" у разработчика, то сейчас для размещения аппаратных средств построены особые помещения, оборудованные всем нужным для 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех обеспечения непрерывной работы. А компьютер, положивший начало поисковой машине, сейчас находится на выставке раритетов Yandex'а.

^ 1.2.3. Поисковый механизм

Начиная делать поиск при помощи Yandex'а, мы может в очевидном виде указать 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех, в какой базе (коллекции документов, типе документов) следует делать поиск. Если мы не указываем этого, то на базе анализа запроса Yandex без помощи других делает допущение о приоритете спец коллекции над основной 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех, без помощи других подбирает подходящую к запросу рубрику каталога.

В большинстве случаев для поиска употребляются все базы. При всем этом собирающий сервер раздает в их измененные запросы, прошедшие подготовительную обработку. Эта обработка состоит в 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех том, что каждому термину в запросе сообщается глобальное значение его оборотной частоты, подсчитываемой по коллекции веб страниц. Такая обработка требуется для того, чтоб поиск велся по единым правилам, и значения релевантности, вычисляемые 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех в различных коллекциях, можно было бы считать поочередными и вычисляемыми "в одной системе координат".

Модификации запросов этим не ограничиваются, и для специализированных коллекций (к примеру, "энциклопедий") могут быть и 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех другими, в том числе и очень специфичными.

Запрос производится параллельно для всех коллекций, а слияние результатов, как и указывалось ранее, делается на том из собирающих (метапоисковых) веб серверов, на который попадал юзер при 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех заходе по адресу www.yandex.ru. Поисковые результаты по более большим источникам, если в их найден хоть один ответ, показываются рядом со ссылками из интернета (справа – одна картина и ссылка на 1.2. Как устроена поисковая машина Яndex - М. Г. Абрамзон Яндекс для всех другие, также ответ Маркета). Ответ других источников может показываться сверху либо снизу поисковых результатов, если он оказался довольно релевантным – так работают Анонсы, Энциклопедии, Каталог.




12-istochniki-m-m-batmaev-b283-socialno-politicheskij-stroj-i-hozyajstvo-kalmikov-v-hvii-hviii-vv-elista-app.html
12-istoriya-filosofii-1-chto-takoe-filosofiya.html
12-iyulya-na-zasedanii-kollegii-administracii-s-dokladom-o-proektirovanii-i-stroitelstve-socialnih-obektov-na-territorii-vasileostrovskogo-rajona-vistupila-zamestitel-glavi-tatyana-shajdorova.html