В прошлом уроке говорилось о том откуда берутся посетители. Исходя из этой статьи было ясно, что поисковый трафик это очень хорошо… очень сложно, но очень хорошо. Потому было решено написать отдельно про поисковые системы, поисковый трафик, поисковый спрос и др. Это очень большая и обширная тема, но я постараюсь всё разжевать, как следует. Конкретно, в этом уроке будут затронуты основные моменты по алгоритмам работы поисковых систем.
Для начала, небольшое лирическое отступление. Поисковики занимают центральное место в интернете т.к. упорядочивают хаос. Ближайшая аналогия — это телефонные номера (интернет) и телефонные справочники (поисковики). Дык вот, поисковые машины как телефонные справочники позволяют упорядочить информацию в интернете и сделать её прозрачной для конечного пользователя, что конечно же делает их важной частью информационного пространства. В мире есть бесконечное множество поисковиков, но самые известные и существенные для нас это Google и Яндекс. У всех у них различная внутренняя организация, свои алгоритмы ранжирования, фильтрации и т.д., но суть и основа у всех одна. Вот её то мы и будем сегодня рассматривать. Дык, из чего же состоят и как работаю поисковые системы?
Содержимое
Устройство поисковых систем¶
Человечеству известно всего три способа поиска информации в большом количестве страниц (книг):
Оглавление
для интернета аналогом являются различные каталоги сайтов, где как правило, разбиение происходит по категориям.
Ссылки
как и обычные ссылки в книгах интернет-ссылки отсылают читателя на другую страницу для уточнения или раскрытия темы, отличие только в том, что интернет-ссылки автоматизированы.
Предметный указатель
аналогом в интернете являются индексы поисковых систем, где в самом простом случае указано на какой странице упоминалась та или иная ключевая фраза.
В рамках данного урока для нас самым важным является индекс (предметный указатель), который составляет сердце поисковой машины. Именно на нём будет сосредоточено наше внимание.
Вообще, как работает поисковик сегодня знают многие: поисковый робот (паук) обходит весь интернет, проходя по ссылкам от одной странице к другой, отсылая каждую новую (или старую) страницу на индексацию специальному индексному роботу, который на основе собранной информации со страниц составлял свой индекс всего интернета, а уже в последующем обычные люди вводя свои запросы просто обращаются к этому индексу, узнавая где в том или ином виде упоминался их запрос (в самом простом случае).
Вся магия, как раз происходит в индексе поисковой системы. И у каждого поисковика эта магия своя, но можно выделить общие принципы и алгоритм проведения индексации страницы, которы будут похожи почти у всех поисковых систем:
Очистка полученной страницы от мусора.
Все страницы в интернете помимо текста содержат много дополнительной информации: HTML-теги, картинки, видео и др. Для индексации текста этого всего не нужно, потому все нетекстовые элементы удаляются.
Выборка слов для индексации.
У каждого поисковика есть свои критерии относительно того, что считать в тексте словом пригодным для индексации, а что мусором. Например, что делать со словами написанными через дефис (это одно слово или два), датами, числами, комбинациями чисел и букв и др. И мало того что у всех эти критерии разные, дык, они ещё и меняться могут довольно часто. Но можно легко проверить как тот или иной поисковик обрабатывает конкретное слово, достаточно просто ввести его в поиск и поглядеть, что выдаст поисковик: подсвеченные слова в заголовках и цитатах (сниппетах) сразу покажут как они хранятся в индексе (или вообще не хранятся). Правда, всё же есть некоторые принципы и подходы которые одинаковы для всех поисковиков:
Разделители не индексируются. Различные знаки препинания, пробельные символы, специальные символы и др. в большинстве случаев выбрасывается как мусор.
Стоп-слова не индексируются. Во всех языках есть слова, которые не несут особой смысловой нагрузки и ими можно пожертвовать в угоду снижения нагрузки на сервер. Как правило, среди них союзы, предлоги, сокращения, междометия, числа и др. Но справедливости ради стоит заметить, что у крупных поисковиков либо нет стоп-слов, либо их ничтожное количество т.к. стоимость хранения данных значительно снизилась и для повышения результативности поиска теперь они индексируют практически всё.
Ссылки индексируются. Хоть они и являются HTML-тегами, но всё же попадают в том или ином виде в индекс т.к. ссылки — это основопологающая идея интернета, которая приносит поисковикам только пользу: новые страницы для индексации, вычисление авторитетности страниц (более подробно читайте в статье что такое PageRank), использование анкора ссылки, как краткого смыслового описания адресуемой страницы.
Нарисованный текст не индексируется. И это понятно, ведь распознование графического текста очень трудоёмкий процесс и вряд ли будет иметь место в ближайшем будущем в алгоритмах поисковиков.
Морфологическая обработка слов.
Многие поисковые машины приводят найденные слова к начальной форме (или даже к основам), что позволяет сэкономить ресурсы сервера, а кое-где даже улучшить результаты поиска.
Организация индекса.
Все подученные в результате морфологической обработки слова сводятся в единый индекс, где указана страница и место нахождения на этой страницы слова. В зависимости от поисковика могут быть добавлены какие-то ещё параметры. При этом сам индекс должен быть упорядочен, например, по алфавиту, для ускорения поиска по нему.
Как видно из выше описанного общего алгоритма индексации поисковики хранят инвертированный индекс всего интернета, это значит что при поиске по индексу проходят путь от слов к страницам, а не как при обычеом чтении от страниц к словам.
Справедливости ради, хочу заметить, что помимо инвертированного индекса есть и ещё один, так называемый, прямой индекс. Это сжатый голый текст страницы без всего мусора, который хранит у себя поисковик. Он используется поисковиками для составления сниппетов в выдаче (релевантных цитат). Плюс есть функция восстановления страницы, которая перестала быть доступной на сайте, правда эта функция сохраняется только до следующей переиндексации и если страница всё так же недоступна, то она удаляется и из прямого индекса.
Что и как индексируют поисковики¶
Важно понимать какие документы может проиндексировать поисковик, а какие нет, или какие документы у него могут вызвать затруднения. Это необходимо для того чтобы при создании сайта сразу было сделано так, чтобы вся необходимая информация была легко доступна для паука. В противном случае индексация может затянутся или вообще не произойти.
Сперва нужно уяснить, что у всех поисковиков есть своя область индексации. Например, российские поисковики Яндекс, mail.ru, Рамблер и др. индексируют сайты только на русском языке при этом доменная зона может быть совершенно любая (.ru, .com, .info и др.). Так поступают все национальные поисковики — индексируют только те страницы, которые содержат целевой язык страны или какого-то региона. В это же время, есть поисковики позиционирующие себя как глобальные (мировые) поисковые машины, которые уже занимаются индексацией страниц без разбору, такие как Google или Bing.
А что на счёт документов, которые индексируют поисковики, что они понимают, а что нет? Тут всё опять неоднозначно. Единых стандартов нет и всё зависит от мощностей и алгоритмов самих поисковиков. Одно можно сказать точно: всё постоянно движется вперёд, если сегодня они не индексируют какой-то тип документа, то завтра уже могут. Но так или иначе по основным типам документов можно пробежаться и дать общие по ним комментарии:
HTML-документы
это первый тип документов что индексировали поисковики, потому не сложно догадаться, что их они индексируют лучше всех и быстрее всех. Из этого несложный вывод: если есть выбор между теми какие форматы лучше использовать, то всегда лучше отдать предпочтение HTML. И если выбор пал на более экзотический формат (из тех что ниже описаны), то всегда рекомендуется продублировать важные тексты и в HTML.
Картинки и фото
один из самых тяжёлых типов документов для индексации, т.к. они больших размеров и сами по себе не несут никакой прямой полезной информации для поисковика. А распознанием текста на картинках ещё не занимается ни один поисковик, потому что это очень накладно и вряд ли сулит какие существенные плюшки. Хотя в данный момент крупные поисковики в этом направлении значительно продвинулись и хорошо находят дубликаты картинок. Потому рекомендуется всегда добавлять хотя бы одну уникальную картинку в статью. А что касательно сайтов где на страницах одни лишь изображения (сайты фотографов), то нужно его хотя бы назвать логично, постараться добавить хоть немного тематического текста, прописать alt у картинок и т.п. В общем, вокруг картинки должно быть как можно больше тематического текста, чтобы поисковик верно понял к какой теме эта картинка относится. Это необходимо для поиска по картинкам, который в последнее время становится очень актуальным.
Flash
практически все основные поисковики уже давно индексируют флэш-содержимое на страницах. Потому отпала необходимость дублировать сайт сделанный на флеше в текстовой версии, но всё же делать сайты полностью на этой технологии не стоит. И не только потому что поисковик индексирует их дольше и менее эффективно, а хотя бы потому что это просто выстрел себе в ногу: сайты сделанные на флеше тяжёлые, а некоторые устройства просто не поддерживают флеш или требуют его установки. По мне овчинка выделки не стоит.
Текстовые документы (.doc, .txt, .pdf, .rtf, .xls)
поисковики довольно неплохо понимают эти форматы (в .pdf только если имеется текстовая подложка, а иначе это те же картинки). Но опять же, с более сложными и изощрёнными форматами, которые предусматривают свою сложную внутреннюю структуру (типа .doc и .xls) поисковик работает гораздо хуже, чем с HTML. Потому если у вас на сайте есть только прейскурант в Excel, то рекомендуется продублировать его отдельно в HTML-версии.
JavaScript
в зависимости от ситуации может индексироваться хорошо или не очень хорошо. Вообще, если сам текст постоянно находится в HTML-коде страницы, а JS занимает только его отображением, то всё нормально. Но если используется технология AJAX, то могут возникнуть проблемы. Фактически только основные наши поисковики могут подхватывать такие страницы (соответствующие публикации от Google и Яндекс)
Если подвести итог, то особых проблем с индексацией содержимого страниц не будет, если содержимым этим будет старый-добрый текст. Ну а всё остальное – картинки, видео, flash – уже как дополнение к тексту, а не как основной контент.
Видимость контента¶
про то что страницы закрытые паролями не индексируются, поисковые выдачи и др. но это может быть подставленно
Все ли страницы видят поисковики? Как ранее уже упоминалось, трудности могут вызвать AJAX, но оно и понятно — динамический контент. Но не только он может быть не увиден поисковиками, но и совершенно нормальные страницы, если они организованны неверным (особым) образом:
Глубоко закопанные страницы.
Если на сайте присутствуют страницы, до которых можно добраться только по цепочке из множества ссылок, то может так случится, что поисковик до них вообще не доберётся или будет это делать крайне долго. Всё потому что у поисковика на индексации стоят миллионы сайтов, и с каждого он берет за один раз только определенное количество страниц. И в случае, если проиндексированные страницы изменились до следующего цикла индексации, то основное время поисковик может потратить на их переиндексацию так и не добравшись до ваших глубинных страниц. В общем, даже если на сайте очень большое количество страниц, то они все должны быть разумно организованны и лежать на поверхности (максимум в 2-3х кликах от главной страницы).
Локальный поиск на сайтах.
Как вы могли догадаться, имеется в виду обычная форма поиска контента, которая присутствует почти на всех сайтах. Часто, чтобы не копошится в огромных развалах статей посетители используют поиск для выборки необходимого контента. Но поисковики таким не занимаются, они не будут подставлять слова в ваши поисковые запросы и индексировать выданный им контент. Это ещё ничего, если на вашем сайте поиск как дополнительная функция, а все статьи и без этого доступны за 2-3 клика. Но могут быть сайты с огромным количеством статей, где поиск является основной функцией для их нахождения, например, различные энциклопедии. Если веб-мастер на таком сайте поленился сделать оглавление содержащее ссылки на все статьи энциклопедии, то они могут быть все так никогда и не проиндексированны. Справедливости ради замечу, что если форма поиска свой запрос отправляет через GET (т.е. через URL), то тогда у поисковика есть возможность индексировать выдачу, т.к. каждая страница выдачи будет иметь свой уникальный URL, а пользователи ходя по этим страницам, сами того не подозревая, отправляют их на индексацию. Последнее справедливо только тогда когда используются соответствующие браузеры (например, Chrome и Яндекс.Браузер), который отправляют неизвестные страницы на индексацию, или на сайте установлен специальный счётчик (например у Яндекс.Метрики такой). И в связи с этими допущениями, понятно, что на этот способ индексации лучше особо не рассчитывать, но иметь в виду нужно.
Глубокая паутина.
Если предыдущий пунки рассмотреть более чательно, то становится понятным, что такого скрытого от поисковиков интернета достаточно много. Это явление получило название глубокая паутина (от англ. deep web), она включает в себя страницы, которые динамически генерируются по определенным запросам к базам данных. Запросы могут генерироваться различными формами поиска, регистрации, авторизации, запросов и др. Как было сказано ранее, поисковая машина не способна подбирать нужные запросы для индексации скрытого контента. Но не всё так плохо, в этом направлении ведутся постоянные работы: браузеры отправляющие на индексацию страницы, специальные счётчики, специальные пауки и др. Но всё это имеет случайный характер т.к. может случится что пользователи не все страниц посетят и будет проиндексирован не весь контент, а пауки не обладают интеллеком, чтобы точно понять, что вводить в той или иной форме. Более подробно об этом вы можете почитать в вики.
Из выше сказанного следует нехитрый вывод: если вы хотите, чтобы все ваши страницы были проиндексированны в короткие сроки, то все они без исключения должны быть доступны по ссылкам в 2-3х кликах от главной страницы. Любые формы запросов для получения контента должны быть только как дополнение к основному функционалу сайта, а не основной способ доступа к данным.
Скорость индексации¶
Теперь вам должна быть понятна примерная внутренняя организация поисковых машин. Но сразу возникает вопрос: как часто поисковики выполняют свою работу — индексируют или переиндексируют страницы в интернете?
В большой степени от скорости индексирования зависит качество поиска, ведь никому не нужна устаревшая информация или ещё хуже ссылки на неактивные страницы. Поэтому все поисковики стремятся к наиболее частой переиндексации, чтобы иметь актуальные и полные данные. Но это упирается в ограниченные ресурсы поисковиков и постоянно растущий интернет. На данный момент крупные поисковики проводят фактически еженедельную переиндексацию с теми или иными допущениями, например, сайты, которые меняются не часто паук почти не посещает, в то время как новостные порталы (и им подобные) посещает специальный быстроробот.
Быстроробот был специально сделан для сайтов, где контент меняется очень часто. Один сайт этот робот может посетить несколько раз в день. Далеко не каждый сайт заслуживает внимание быстроробота и попасть в его списки достаточно сложно. Необходимо быть авторитетным ресурсом с большой посещаемостью и часто обновляющимся контентом… очень часто.
Вывод¶
Теперь вы знаете, как работают поисковые машины, что они предпочитаю и до чего могут дотянутся. Основываясь на этих знаниях вы можете анализировать работу конкретного поисковика и самостоятельно понимать какие приёмы можно применить для продвижения целевого сайта. И далеко не всегда то что работает в одном поисковике будет работать и в другом, учтите это.
На этом урок окончен. Надеюсь, вы что-нибудь для себя новое уяснили или приняли к сведению. В дальнейшем будем ещё ближе знакомится с поисковыми системами. Если будут вопросы, пожелания или замечания, то прошу писать их в комментарии. Всем удачного продвижения!
Похожие статьи
Свежая подборка SEO-плагинов для блога на WordPress – Хочу представить вашему вниманию свою подборку SEO-плагинов для WordPress. Данные плагины помогут вам оптимизировать ваш блог, его содержимое и поднять его в поисковых выдачах повыше, чего мы все…
Урок 1: Спрос и предложение на информацию в Интернете. – Доброе время суток, дорогой читатель. Сегодня я решил, что пора начать делится своим опытом со всеми своими читателями и потому сегодня стартует цикл статей-уроков посвященных поисковой оптимизации…
Что такое PR или ссылочное ранжирование (PageRank) – Доброе время суток. Сегодня я постараюсь рассмотреть поподробнее понятие ссылочного ранжирования (PageRank), которое используется поисковой машиной Google для определения авторитетности сайтов в…
Как повысит показатели тИЦ и PR не навредив сайту – Все мы очень хотим поднять свои пузомерки, но далеко не у всех это быстро получается сделать. И многие пишут о своем опыте, но далеко не у всех все одинакого работает. Все ведь зависит от самого…