Оптимизация и продвижение сайтов |
Страница 49 из 392 Страница же, на которую вообще нет ни одной ссылки, не попадет «своим ходом» в индекс поисковика никогда, если не предпринимать специальных усилий. Конечно, владелец сайта может сам добавить новый адрес страницы в индекс поисковика вручную, используя средства регистрации новых веб-страниц, которые есть во всех поисковых машинах. Чтобы поработать с текстом страницы и составить из него индекс, поисковик должен получить этот текст, для чего необходимо выкачать этот текст, то есть запросить у сайта заданную страницу. Выкачивает страницы специальный модуль поисковой машины, называемый поисковым «пауком» (по-английски crawler), или поисковым роботом. Поисковый робот обходит заданный на предыдущем этапе список страниц, выкачивает гигантский объем сырого текстового материала, хранит его на дисках своих компьютеров и передает на индексирование индексному роботу. Составление индекса, или индексирование Чтобы составить индекс, индексный робот поисковой машины должен выбрать все слова из всех выкачанных текстов и расположить их в алфавитном порядке, вместе с номерами страниц и разной служебной информацией о каждой странице. Для этого индексный робот перебирает все выкачанные страницы, нумерует их (а как же, ведь нужно как-то пометить страницы, чтобы потом находить их), удаляет из текста страниц всякий ненужный, нетекстовый «мусор» (например, разметку языка HTML1), затем извлекает из текста слова и помещает их в индекс. При этом слова снабжаются информацией о страницах, с которых они были взяты. Как именно устроен индекс, мы подробно расскажем чуть позже. Все предыдущие шаги незаметны для пользователя, поскольку они выполняются в поисковой машине. А вот сам поиск — это и есть то, что видит пользователь. Он вводит в поисковую строку свой запрос (слово или словосочетание), и поисковая машина — о, чудо! — выдает список ссылок на страницы в Интернете. Как это работает? Когда пользователь вводит какое-нибудь слово в строку запроса поисковика, поисковая машина обращается к индексу, находит запись о заданном слове, извлекает все номера страниц, относящиеся к нему, и показывает пользователю результаты поиска, то есть список страниц. 1 HTML (HyperText Markup Language — язык гипертекстовой разметки) — набор специальных команд для оформления отображаемой на веб-странице информации:текста, изображений, таблиц, форм и т. д. |