Оптимизация и продвижение сайтов

Печать

Страница же, на которую вообще нет ни одной ссылки, не попадет «своим ходом» в индекс поисковика никогда, если не предпринимать специальных усилий.

Конечно, владелец сайта может сам добавить новый адрес страницы в индекс поисковика вручную, используя средства регистрации новых веб-страниц, которые есть во всех поисковых машинах.

Выкачивание страниц

Чтобы поработать с текстом страницы и составить из него индекс, поисковик должен получить этот текст, для чего необходимо выкачать этот текст, то есть запросить у сайта заданную страницу.

Выкачивает страницы специальный модуль поисковой машины, называемый поисковым «пауком» (по-английски crawler), или поисковым роботом.

Поисковый робот обходит заданный на предыдущем этапе список страниц, выкачивает гигантский объем сырого текстового материала, хранит его на дисках своих компьютеров и передает на индексирование индексному роботу.

Составление индекса, или индексирование

Чтобы составить индекс, индексный робот поисковой машины должен выбрать все слова из всех выкачанных текстов и расположить их в алфавитном порядке, вместе с номерами страниц и разной служебной информацией о каждой странице.

Для этого индексный робот перебирает все выкачанные страницы, нумерует их (а как же, ведь нужно как-то пометить страницы, чтобы потом находить их), удаляет из текста страниц всякий ненужный, нетекстовый «мусор» (например, разметку языка HTML1), затем извлекает из текста слова и помещает их в индекс. При этом слова снабжаются информацией о страницах, с которых они были взяты.

Как именно устроен индекс, мы подробно расскажем чуть позже.

Поиск

Все предыдущие шаги незаметны для пользователя, поскольку они выполняются в поисковой машине. А вот сам поиск — это и есть то, что видит пользователь. Он вводит в поисковую строку свой запрос (слово или словосочетание), и поисковая машина — о, чудо! — выдает список ссылок на страницы в Интернете.

Как это работает? Когда пользователь вводит какое-нибудь слово в строку запроса поисковика, поисковая машина обращается к индексу, находит запись о заданном слове, извлекает все номера страниц, относящиеся к нему, и показывает пользователю результаты поиска, то есть список страниц.

1  HTML (HyperText Markup Language — язык гипертекстовой разметки) — набор специальных команд для оформления отображаемой на веб-странице информации:текста, изображений, таблиц, форм и т. д.