Поисковые системы интернета.

Когда мы пользуемся поисковой системой, то заходим на сайт, на котором размещается веб-интерфейс системы, его еще называют фронт-энд. Обслуживает этот интерфейс программная часть, ее еще называют поисковая машина или поисковый движок. Это целый комплекс программного обеспечения, который обеспечивает функционал всей поисковой системы. Как правило, кроме поискового интерфейса, поисковые системы предлагают дополнительные сервисы, например, почту, файлообменники, новостные и развлекательные ресурсы и тому подобное.

У каждой поисковой системы есть своя база данных практически обо всех сайтах, эта база постоянно обновляется специальными автоматизированными системами, созданными специально для отслеживания появления новых сайтов.

Есть много вариантов алгоритмов работы поисковых систем, мы рассмотрим алгоритмы наиболее популярных. Поисковые машины таких систем как Google, Rambler, Яндекс состоят из двух параллельно работающих компонентов – индексатора и поискового механизма. Индексатор скачивает материалы сайтов (файлы HTML , изображения, Flash компоненты) и разбивает их на слова и символы языков программирования для хранения в базе данных. Индексацией называется добавление страниц сайта в базу данных поисковой системы.

image0015Поисковый механизм − это программное обеспечение, которое обеспечивает доступ к хранимой в базе информации по запросу пользователя. Для того, чтобы получить и проиндексировать информацию, существуют приложения, которые называются «пауки» (англ. Spider). Целью этого приложения является обойти за заданное время как можно больше документов в сети, учитывая актуальность (свежесть) документов. Переход от одного документа к другому делается по ссылкам, если в одном документе есть ссылка на другой, то другой добавляется в список документов, который попадет в поле зрения паука. Поисковая машина запускает тысячи таких приложений, каждому из них дается определенный сегмент сети, который ограничен доменом или набором документов, стоящим в очереди на сканирование. Работа пауков регулируется диспетчером, который распределяет нагрузку на сервера, куда идут запросы, в противном случае могут пойти одновременно слишком много запросов на один сервер, которые перегрузят его. Пауки используют тот же протокол передачи информации, что и браузеры, протокол HTTP, ведь они должны видеть то же самое, что и пользователь.

В SEO оптимизации существует прием, называемый клоакингом (cloaking) (от англ. to cloak — маскировать, прикрывать, прятать, скрывать). Роботу поисковой машины показывается не та страница, которая показывается человеку. Это прием часто используют для так называемой «черной оптимизации». Страницу, «невидимую» для пользователя, «нашпиговывают» ключевыми словами, ведь страница, насыщенная ключевыми словами, может быть неудобна для пользователя, но она будет релевантной и будет выигрывать в отображении по поисковым запросам. Эта страница не нуждается в дизайне, дешево обходится, но позволяет привлечь посетителей. Применение клоакинга считается поисковыми системами нарушением и может быть наказано, сайт может быть исключен из индекса (если сайт будет отсутствовать в индексном файле, то он будет отсутствовать и в результатах поиска). Если паук не может скачать документ, то он возвращается к нему позже. Если несколько попыток скачать файл не увенчаются успехом, то документ может быть удален из индексного файла, и будет отсутствовать в результатах поиска. Так что если качество Вашего хостинга оставляет желать лучшего и сайт часто «висит», то это может сильно повлиять на его индексацию.

Для помощи роботам в скачивании нужны подсказывающие конструкции на сайте, это файлы robots.txt . Этот файл «объясняет», что можно скачивать, а что нет. Чтобы сайт успешно индексировался поисковиками, в конструкции Вашего сайта обязательно должен быть этот файл. Еще одной подсказывающей конструкцией являются мета-теги. Мета-тегами называется та часть кода Вашего сайта, которая не предназначена для читателей и не является обязательной для правильного отображения страниц сайта. Мета-теги предназначены только для поисковых систем, они дают поисковому роботу подсказки о содержании страницы и о том, что с ней надо делать и надо ли учитывать ссылки, которые есть на этой странице.

Вот так выглядит мета-тег: <head><МЕТА></head>. <head> − это невидимая пользователю область страницы. Мета-теги изначально создавались для размещения информации о времени создания сайта и авторстве, а затем уже в них стали размещать информацию для поисковых систем.

Мета-тег robots выглядит так:<META NAME= «ROBOTS» CONTENT= «указание роботу»>. CONTENT − это атрибут, которому могут присваиваться значения, содержащие указания поисковому роботу:

Nofollow – не идти по ссылкам, показанным на странице (рейтинг не передается)

Follow – идти по ссылкам, показанным на странице (рейтинг передается)

Noindex – не индексировать страницу

Index – индексировать страницу

All –идти по ссылкам, показанным на странице, индексировать страницу

None – не идти по ссылкам, показанным на странице, не индексировать страницу.

<META NAME= «ROBOTS» CONTENT= «Index,Nofollow»>

тот пример мета-тега означает не идти по ссылкам, показанным на странице, а саму страницу индексировать.

Следующая подсказывающая конструкция – это карта сайта, текстовый файл sitemap, с перечислением всех страниц сайта, доступ к которым разрешен роботу. Также в этом файле указывается дата последнего изменения страницы, чтобы робот просматривал только измененные страницы. Создается этот файл при помощи специальных он-лайн сервисов (например, http://www.xml-sitemaps.com/ или http://www.sitemapgenerator.ru/) для статических сайтов и с помощью плагинов для динамических сайтов.

image0035

После того как роботы — пауки скачали документы в базы, наступает следующая стадия, собственно само индексирование. Подавляющее большинство поисковиков действуют на основе так называемого инвертированного индекса. Документы, которые скачивает робот, разбиваются на слова, потом компонуется таблица соответствий слов и содержащих эти слова документов.

С помощью парсеров (алгоритмов или программ, которые осуществляют грамматический разбор) документы преобразуются в текст, ведь современные поисковые машины работают не только с текстовыми и html форматами, но и с форматами pdf, doc, swf и прочими. Парсер определяет формат документа, выделяет содержимое, сохраняя структуру документа (заголовки, предложения, списки и пр.), игнорируя все, что относится к оформлению информации, выделяя только саму информацию. Сохраняют структуру документа потому, что она нужна для учета важности слов во время поиска.

Например, слова, которые находятся в заголовке документа, имеют большую важность (или вес) перед словами, которые содержатся в заголовках глав или параграфов.Слова, которые содержатся в заголовках глав, имеют больший вес, чем слова в самой главе. Соответственно этой структуре словам присваивается вес (term weight). Предложения в документах разбиваются на слова или токены. Эта разбивка совершается по символам, указывающим на разрыв слов, например, пробелам, переносам строки, смене регистра букв, смене букв и цифр в одном слове и т.п. После разделения слова унифицируют, то есть приводят к единому виду по числу, роду и падежу. Делается это для того, чтобы одно и то же слово, но находящееся в разных формах, было преобразовано в один вид. Это необходимо для определения частоты повторения термина в документе и для более точного результата запроса, ведь пользователь может задать запрос в другой форме.

Например, если пользователь задал запрос «перевозка груза», а в Вашем документе содержится «перевозка грузов», то Ваш документ все равно будет показан в результатах запроса. Для того чтобы не переполнять индексный файл ненужными словами и не снижать скорость поиска, существуют слова, которые индексатор игнорирует, так называемые стоп-слова. Это часто встречающиеся слова, например: «и», «ваш», «или» и т.п. После того как документ был очищен от всего ненужного, и произошла выборка слов из текста, слова располагаются по алфавиту в отдельном списке. После этого происходит собственно само составление индекса. Индекс − это своего рода словарь, в котором слова-основы расположены по алфавиту, и к каждому слову-основе прилагается запись, на какой странице содержится это слово (номер страницы) и в каком месте страницы оно находится (номер вхождения). То есть, индексная запись выглядит следующим образом: «основа – номер страницы и номер вхождения − номер страницы и номер вхождения-…» Для повышения скорости поиска слова-основы отображаются в виде номера, а сами слова и соответствующие им номера хранятся в отдельной базе.

После того, как мы разобрались, как устроена индексация сайта, нам будет просто понять, как работает поиск в поисковых машинах. Когда в строку запроса поисковой машины пользователь вводит какое-либо слово, поисковик обращается к индексу, в нем находит запись об этом слове, все номера страниц, на которых есть это слово, и показывает пользователю список этих страниц. В списке результатов поиска, как правило, показывается заголовок странички, цитата с подсвеченным словом из запроса и адрес страницы. Если пользователь вводит в строку запроса несколько слов, то поисковик выбирает страницы, в котором встречаются все слова запроса, то есть страницы, номера которых встречаются в списке страниц для каждого слова. Хорошие поисковики показывают наиболее релевантные, то есть соответствующие запросу страницы.

Поисковая система Google

image0055

На сегодняшний день существуют десятки поисковых систем. Первой системой, которую можно назвать полноценным поисковиком, была система WebCrawler, появившаяся в 1994 году. По данным фирмы Net Applications, которая занимается статистикой доли рынка для операционных систем и браузеров, самой популярной поисковой системой в мире является Google, ее выбрали 83,87 процентов пользователей. Создатели этой поисковой системы − Сергей Брин (иммигрировавший в 1979 году в США из СССР) и Ларри Пейдж. Имя Google ему дали в 1997 году (от англ. googol, слово, обозначающее число, состоящее из цифры 1 с сотнями нулей). На сегодняшний день Google, кроме функций поисковика, имеет большое количество бесплатных он — лайн сервисов, таких как почта, справочники, карты, программы — переводчики, сервис работы с документами, обмена файлами и многих других. Для хозяев сайтов есть программы контекстной рекламы и сервисы «AdWords» и «AdSense», позволяющие заработать на посещаемости своих сайтов и привлекать на сайт посетителей. Есть сервисы для разработчиков сайтов , например такие, как «Google Code».

Поисковая система Яндекс

image0075

Но на российском рынке Google уступает поисковой системе Yandex, хотя в мире ей пользуются всего 1,7 процентов пользователей, и она находится на 5 месте в мире по количеству обрабатываемых запросов. Само название «Yandex» интерпретируют как сокращение от английского «Yet another indexer» («ещё один индексатор») или как «Языковой iNDEX». Днем рождения поисковой системы Yandex можно считать 23 сентября 1997 года, в этот день она была официально проанонсирована. На сегодняшний день это уже мультипортал с несколькими десятками сервисов. Наиболее популярны Яндекс.Почта, Яндекс.Карты, Яндекс.Новости, Яндекс.Картинки и другие.

 

На сегодня существуют три главные международные поисковые системы – Google, Yahoo и MSN, которые имеют свои алгоритмы поиска и собственные базы. Подавляющее большинство остальных поисковиков использует в том или ином виде результаты этих поисковых систем.