Главное меню » Блог » Записи » Sitemap.xml – как настроить идеальный список страниц для полной индексации сайта

Sitemap.xml – как настроить идеальный список страниц для полной индексации сайта

sitemap_min

Суть работы с файлом sitemap.xml и его значение для веб-мастера

Начнем с того, что среди разработчиков сайтов накопилось масса вопросов, относительно появления в череде новинок поисковой оптимизации файла sitemap. Удивительная ситуация, на первый взгляд это не самый важный аспект продвижения сайта, однако интерес подогревают сами действия Яндекс и Google. Каждый новый проход робота, ориентирован на поиск в ресурсах индексируемых им страниц сайта файла карты, то есть sitemap.xml. Новая версия сервиса «Яндекс. Вебмастера», при его отсутствии просто выдает ошибку выдачи страницы, что ранее игнорировалось и не вызывало негативной оценки. Каковы реалии сегодняшней оптимизации веб-страниц под робот Яндеса и Google?

Насколько важно иметь файл sitemap, и зачем он потребовался вообще? Для получения исчерпывающей информации рассмотрим раздел «Файлы Sitemap». Уведомления о проблемах индексации можно увидеть во вкладке «Возможные проблемы». В зависимости от ситуации вылетают два вида сообщений:

  • Нет используемых роботом файлов sitemap;
  • Робот не нашел ни одного sitemap.

Все бы ни чего, но последствия индексирования страниц для вашего сайта могут быть плачевными. По существу это новый и обязательный уровень входа в индекс поисковых машин. Только корректно составленные фалы sitemap будут добавлены в обработку, а сообщения исчезнут само собой автоматически.

Карта сайта Sitemap

У каждой страницы сайта есть свой уникальный адрес, и соответствует стандартному протоколу. Файл Sitemap» содержит список всех таких адресов. Кстати для за более подробной информацией, желательно обратиться к ресурсу www.sitemaps.org, она здесь самая актуальная.

Описанный выше метод формирования файла Sitemap довольно прост и позволяет сформировать его в автоматическом режиме большинству. При этом обязательно указывается формат расширения . Здесь он имеет вид txt, обычный текстовый файл со списком URL адресов. Однако, профессиональный подход заключается в применении расширенного формата xml, он все же встречается чаще. У него масса преимуществ, так как кроме адреса страница может сообщить роботу о частоте своих обновлений либо изменений, а также коэффициент относительной значимости.

И так, исходя из вышеизложенного, значение списка файла сводится к предоставлению сведений о наличии всех страниц поисковому роботу Яндекс. Согласно новому алгоритму машины они должны добавиться в результаты поиска и будут проиндексированы. Файлы «карт сайтов», оформленные с расширением xml, предоставляют пауку Яндекса особую дифференцированную информацию. Робот уже будет знать, какие из страниц нужно посетить вновь, а какие реже.

Это так сказать теория, поскольку на практике я встречал информации о том, как рекомендации файла реально выполняются, ведь доступ к алгоритму ни кому не доступен. Не удивлюсь, если они вообще не работают либо учитывают хоть что-то из перечисленного. Пока ориентируюсь на свой проверенный опыт, лишь потом смогу сделать детальное сравнение, относительно других факторов индексирования.

О мифах sitemap.xml

Новомодное увлечение картой сайта, как чудодейственное лекарство для многих мастеров, они думают это верх совершенства. Так рождаются мифы, коих уже блуждает по сети не мало.

sitemap_min2

Миф первый – вечно оптимизированный сайт

Бытует мнение sitemap.xml создается один раз навсегда и беспокоиться о поисковой оптимизации более не нужно. На самом деле это заблуждение, данная концепция не имеет прочной теории, так как не совершенна. На примере крупных проектов, объем которых составляет 10, а то и более тысяч страниц, легко доказать ее провал. Для таких порталов, добиться полноты индекса только имея лишь карту сайта, однозначно невыполнимая задача.

Да, файл sitemap.xml позволяет роботу отсканировать все страницы даже самого большого ресурса, но вместе с тем, не гарантирует стопроцентную индексацию ни сейчас, ни в будущем. Одной из причин такого казуса исследователи называют внештатные технические проблемы, которые трудно обнаружить сразу, так как сайт состоит из множества страниц. Нужно время, но роботу отпускается ограниченный лимит на опрос страниц, и он идет дальше, оставив «больной сайт» до следующей проводки.

Второй причиной нестабильной индексации крупных сайтов, можно считать непригодность какой либо страницы быть в числе «избранных роботом». На практике для качественной индексации хотя бы 30 00 страниц, просто необходимы дополнительные усилия. Это можно сказать уникальная работа. Впрочем, я ранее подготовил статью на тему ускоренной автоматизации процесса индексации страниц крупных больших сайтов, ознакомиться с которой можно здесь.

Миф второй – sitemap нужен всем

Это не совсем верно. Допустим, существует небольшой проект в несколько сот страниц, имеющий четкую структуру связей, может индексирован роботом на все 100%. Почему? Дело в совершенстве механизма перехода по внутренним ссылкам, где всего за пару кликов легко переместится на нужную позицию любой страницы. Исходя из личной практики, могу утверждать о существовании десятки подобных ресурсов в Интернет. Причем все они корректно воспринимаются роботами любого поисковика.
Кстати, если Google для многих авторитет, то советую, ознакомиться с его позицией на сей счет в его справке. При условии корректных связей между страницами роботу не составит труда найти основные материалы на сайтах. Однако, наличие файла sitemap.xml существенно облегчает СЕО сайта при его сканировании. Опять же, для иллюстрации для начала возьмем пример с большим количеством страниц.

Сайт велик по объему, и, как правило, измененные и вновь созданные странички игнорируются, все тем же Google. Остальные причины представляют частные случаи.
Во-первых, если на сайте имеется массивный архив страничек, не имеющих четких связей, им для полной индексации придётся таки заявить о себе, отдельной строкой в файле sitemap.xml.
Во-вторых, если сайт новичок в сети, к тому же на него практически нет ссылок, то вероятно он будет на время «потерян» из виду, до востребования конкретным и редким пользователем. Алгоритма работы Googlebot и прочих машин для поиска информации в сети, основан на последовательном прочесывании ресурсов по имеющимся внешним ссылкам. В таком случае бог ему в помощь дает всемогущий sitemap.xml, и робот сразу увидит даже молодой сайт.

В третьих, большинство современных сайтов являются мультимедийными, их контент также же валидный, за счет универсальных нотаций, существующих в файле sitemap.xml. Результаты поиска по запросу могут показать их новостные ленты, но, пожалуй, только файл sitemap даст для поиска дополнительную оптимизацию контента. Как результат вы получите шанс успешной индексации чуть ли не всего контента страниц. Информация о нем обязательно появится в браузерах пользователей по результатам их относительного поиска.

Миф третий – удаленный URL страницы в файле sitemap более не индексируется

Типичный классический миф, вокруг него так много стереотипов. Конечно, существуют сайты, где по технической причине sitemap отваливается, либо, в крайнем случае, достается роботу в «обрезанном» виде. Интересно, таких сайтов до сих пор гигантское количество, но проблем с «битыми ссылками» на собственные страницы у них нет. Все идет, так как было раньше, за исключением новоиспечённых страничек.

Тут скорее наоборот действует негласное правило. Удаляя сведения из карты сайта о проиндексированных когда то страницах, тем самым освобождаем процессорное время поисковика для ускорения сканирования новеньких. В СЕО есть такое понятие как краулинг, под которым понимают собственно оптимальное сканирование сайта. Важно только помнить, этот инструмент предназначен для очень тонкой настройки СЕО, и новичкам в подавляющем числе случаев его использование не рекомендую. Об особенностях применения краулинга я напишу позже.

Миф четвертый — все страницы в файле sitemap должны иметь настройку параметров

Да, в какой-то мере это справедливо, но многое остается под вопросом. Обязательность выставления приоритета индексации или частоты обновлений, может и полезно, и даже не повредит сайту, если картой сайта является файл с расширением txt. Опять же не могу подтвердить или опровергнуть тот факт, где бы поисковики действительно учитывали все эти аргументы. Тот же Яндекс часто вовсе игнорирует куда более жесткие инструкции, например, заголовки для серверов (Last-Modified & If-Modified-Since). Эффект от выигрыша сканирования сомнительный, если учесть всю строгость рекомендаций для поисковых машин.

Как уже писал, только крупным проектам важен полный индекс страниц сайта. Прописать все данные и потом еще их значения вручную скажу вам честно довольно кропотливая работа. Даже если вам удастся создать автоматическую генерацию параметров это в конце обязательно отразиться на финансовых и иных ресурсных вложениях в проект. Все гораздо жестче, ведь сайт должен меняться регулярно априори. Значит, рекомендации могут оказаться бесполезными в данном контексте требований на текущий момент времени.

Подведем итог моего монолога

itog

В действительности файл sitemap решает проблему полноты индексации, но лишь частично. Комплексный подход избавит, поможет восполнить ошибки полноты индексации сайта. Для задач СЕО в крупных сайтах-порталах, он едва эффективен, но для анализа сайта подойдет.

Нет смысла в sitemap на очень малых сайтах. Во всех остальных случаях, с точки зрения СЕО анализа работает как эталон, где можно сравнить урлы страниц из файла с данными из индекса, внешних переходов по ссылкам и результатами из поиска. Желательно производить регулярное обновление файла карты. А тем, кто пожелает держать руку на пульсе индексации, и избавляться от индексированных страниц, советую держать два таких файла. Один собственно для робота, и для нужд личного анализа индексации.