8 800 350 99 87 пн – пт 10:00 – 19:00 (Мск)

Анализ файлов Sitemap

Анализ файла Sitemap позволяет вовремя обнаружить ошибки в карте сайта, которые мешают корректной индексации интернет-проекта. Самые распространённые примеры таких ошибок мы рассмотрим чуть далее. Однако сначала немного проясним что из себя представляет данный документ и как его можно создать.

Что такое карта сайта?

Sitemap — это текстовый документ в формате xml или txt. В нём указан список ссылок на все разделы, подразделы и страницы ресурса, продвигаемые в поисковых системах.

Периодически поисковый робот обращается к файлу Sitemap и проводит анализ его содержимого на наличие новых ссылок. Благодаря этому поисковые системы почти сразу видят изменения на сайте и быстрее индексируют новую информацию. Это, в свою очередь, напрямую влияет на скорость появления таких страниц в поиске и их продвижение в интернете.

К слову, на некоторых ресурсах может быть сразу две карты сайта: для роботов и пользователей. Они имеют одинаковое содержание. Отличие только в том, что для посетителей файл создаётся в формате html и помогает им лучше ориентироваться в структуре проекта.

Создание и настройка Sitemap

Для создания карты сайта можно использовать любой текстовый редактор. Описание ссылок на страницы ресурса передают в документе с помощью специальных XML-тегов.

Однако ручное создание такого документа требует слишком большого количества времени. Поэтому специалисты обычно пользуются автоматическими генераторами, которые сканируют ресурс и последовательно добавляют в документ все ссылки. Особенно этот способ удобен, если у вас большой проект с кучей страниц.

Загрузка файла на сервер

После создания документа его необходимо загрузить на сервер. Расположение карты сайта может быть только в корневой директории ресурса.

Чтобы поисковик увидел Sitemap, необходимо указать соответствующую директиву в документе роботс (robots.txt). Ускорить процесс можно, загрузив документ в панели вебмастера.

Проверка валидности карты сайта с помощью панели вебмастера

Самостоятельно проверить корректность составления карты сайта можно с помощью встроенного инструмента Яндекса по ссылке: https://webmaster.yandex.ru/tools/sitemap/.

Аналогичный инструмент есть также у Гугл в Search Console.

Распространённые ошибки

URL-адреса возвращают код ответа 404

В карте сайта не должно быть битых ссылок. Если какая-либо страница при обращении робота возвращает 404-ошибку, она не будет проиндексирована и не попадёт в учёт поисковой системы.

Переход по ссылке не выполнен

Если ссылки будут выполнять слишком много перенаправлений (редиректов), поисковые роботы не смогут их открыть. Проблема может возникнуть в следующих случаях:

  • Вместо постоянных перенаправлений между страницами вы используете переадреcации с помощью JavaScript или мета-тега refresh.
  • Вы используете относительные ссылки (например, o_kompanii.html) вместо абсолютных (например, https://www.example.com/o_kompanii.html).

Недействительные URL-адреса

Если в карте сайта содержатся ссылки на домен более высокого уровня или на другой домен, поисковый робот не сможет их обработать. Например, если документ находится на странице http://www.ucoz.com/vash_sait/sitemap.xml, для него недействительны следующие ссылки:

  • http://www.ucoz.com/;
  • http://www.ucoz.com/your_site/.

Ошибка в адресе ссылок

Очень часто при техническом анализе файлов Sitemap мы наблюдаем такую ошибку:

Сайт расположен на домене http://www.sait.ru/. При этом в карте сайта ссылки на страницы имеют следующий вид:

  • http://example.com/ — без «www» в начале;
  • www.example.com/ — без префикса протокола «http»;
  • https://www.example.com/ — указан протокол «https» вместо «http».

Ошибки в синтаксисе

Самое сложное в процессе анализа файла Sitemap — проверить правильность применение кодировки, а также тегов и их параметров. Например, причиной ошибки может стать неправильная кодировка (должна быть UTF-8), двукратное повторение xml-тега loc, и т.д. С этой проблемой лучше обратиться к специалисту.

Большой размер документа или большое количество ссылок

Согласно требованиям поисковых систем размер карты сайта не должен весить больше 10 мегабайт. Аналогично в документе не должно быть более 50 000 ссылок. Если в процессе анализа вы обнаружили, что одно из этих значений превышено, разделите Sitemap на несколько файлов. Названия таким документам можно давать произвольные. Только не забудьте указать ссылки на них в robots.txt.

Неверный формат даты

Даты в документе должны соответствовать кодировке W3C (например, 2019-02-25). Время указывать не обязательно.

Использование недопустимых символов в URL-адресе

В ссылках нельзя использовать пробелы, кавычки, знаки «& ‘ » < >» и т. д. Чтобы робот при обращении к документу мог корректно прочитать ссылку, которая содержит такие символы, используйте правила экранирования.

Робот не видит Sitemap

Если при очередном анализе проекта поисковый робот не обнаружит карту ресурса, в Яндекс.Вебмастере (Yandex.Webmaster) и Google Search Console появится соответствующее уведомление.

Такая проблема может появиться, если в robots.txt отсутствует соответствующая строка со ссылкой на карту сайта или применяется запрещающая директива disallow. Подробнее об этом мы рассказывали в статье «Нет используемых роботом файлов Sitemap«.

Карта сайта содержит URL, доступ к которым заблокирован в файле robots.txt

Чтобы устранить данную проблему необходимо разрешить индексирование страниц в документе robotx.txt.

Исправление ошибок в карте сайта и проверка её статуса

Поисковые роботы регулярно проводят анализ файла Sitemap на обновления и ошибки. Если вы хотите ускорить этот процесс, можно сообщить роботу об изменениях вручную через панель вебмастера.

Однако имейте в виду, что в Яндекс.Вебмастере использовать данную функцию можно до 10 раз для одного хоста. Если вы воспользуетесь всеми попыткам, следующая возможность уведомить робота об обновлении появится только через 30 дней.

Другие
материалы
Индексирование – это обход сайта поисковым роботом в процессе которого он получа...
Robots.txt (роботс) – это текстовый файл, в котором указываются правила индексир...
Уведомление о наличии фатальных проблем на сайте может появиться в Яндекс.Вебмас...
Структура сайта — это схема размещения всех страниц и разделов в интернет-...
Внешние SEO-ссылки – это ссылки, которые ведут на ваш сайт с других ресурсов. Ко...
Каждый день Яндекс проверяет ваш сайт на наличие ошибок и нарушений требований п...
С помощью сервиса Яндекс.Вебмастер вы можете провести диагностику сайта и выявит...
RSS-канал — это файл, который используется для создания и обновления турбо...
В октябре 2018 года Яндекс ввёл специальные знаки, которые свидетельствуют о кач...
Лог-файл (с англ. журнал) – это текстовый документ, в котором в хронологическом ...
Закажите SEO раскрутку сайта
Оставьте свой номер телефона и мы свяжемся с Вами в рабочее время. Наша команда проконсультирует, поможет, проснит и ответит на любые вопросы

    Либо напишите нам на почту [email protected] или просто позвоните по номеру
    Узнать видимость сайта за 2 минуты