Управление индексацией отдельных страниц — одна из базовых задач технического SEO. Мета-теги robots позволяют точечно указать поисковым роботам, какие страницы индексировать, по каким ссылкам переходить и какие данные сохранять в кеше.
Мета-тег robots: синтаксис и размещение
Тег размещается в секции head HTML-документа. Формат: meta name="robots" content="директива1, директива2". Для указания инструкций конкретному роботу используется его имя: meta name="googlebot" content="noindex" — директива только для Google.
Основные директивы
- noindex — запрет на добавление страницы в поисковый индекс. Робот по-прежнему сканирует страницу, но не включает её в результаты поиска.
- nofollow — рекомендация не переходить по ссылкам на данной странице. С 2019 года Google рассматривает nofollow как подсказку, а не строгую директиву.
- noarchive — запрет на сохранение кешированной копии страницы в результатах поиска.
- nosnippet — запрет на показ текстового сниппета и превью видео в результатах поиска.
- noimageindex — запрет на индексацию изображений, размещённых на странице.
- max-snippet:[число] — ограничение длины текстового сниппета указанным количеством символов.
- max-image-preview:[none|standard|large] — управление размером превью изображений в поиске.
- unavailable_after:[дата] — автоматическое удаление страницы из индекса после указанной даты.
Критическое различие: noindex vs robots.txt
Robots.txt запрещает сканирование — робот не загружает страницу и не видит её содержимое. Noindex запрещает индексацию — робот загружает страницу, читает мета-тег и не добавляет URL в индекс.
Парадокс: если страница заблокирована в robots.txt, робот не доберётся до мета-тега noindex. При этом URL может попасть в индекс на основании внешних ссылок — без содержимого, но как пустая запись. Для гарантированного исключения из индекса используйте noindex без блокировки в robots.txt.
Эволюция nofollow
До 2019 года nofollow был строгой директивой: Google не переходил по ссылкам с этим атрибутом. С сентября 2019 года Google рассматривает nofollow как подсказку (hint) — робот может проигнорировать атрибут, если посчитает ссылку полезной для понимания структуры веба.
Одновременно Google ввёл два дополнительных атрибута: rel="sponsored" для рекламных ссылок и rel="ugc" для пользовательского контента. Эти атрибуты дают роботу больше контекста о характере ссылки.
Когда использовать noindex
- Страницы авторизации, регистрации и восстановления пароля.
- Личный кабинет и все внутренние разделы для авторизованных пользователей.
- Результаты внутреннего поиска по сайту.
- Страницы «Спасибо за заказ», подтверждения подписки, формы обратной связи.
- Тестовые, staging и preview-версии страниц.
- Страницы с тонким или дублирующимся контентом, которые нельзя удалить.
- Страницы пагинации — спорная практика, но применяется при наличии канонической сводной страницы.
Когда использовать nofollow на уровне ссылок
- Ссылки из пользовательского контента: комментарии, форумы, отзывы (рекомендуется rel="ugc").
- Рекламные и партнёрские ссылки (рекомендуется rel="sponsored").
- Ссылки на страницы, которым вы не хотите передавать ссылочный вес.
- Виджеты и встраиваемые блоки от сторонних сервисов.
HTTP-заголовок X-Robots-Tag
Для ресурсов без HTML-разметки (PDF, изображения, видео, JSON-файлы) директивы robots указываются через HTTP-заголовок X-Robots-Tag. Заголовок настраивается на уровне веб-сервера и поддерживает все те же директивы, что и мета-тег.
Пример конфигурации nginx для закрытия индексации всех PDF-файлов: location ~* \.pdf$ — add_header X-Robots-Tag "noindex, nofollow".
Распространённые ошибки
- Noindex в robots.txt — Google экспериментировал с поддержкой этой директивы, но официально она не поддерживается. Используйте мета-тег.
- Noindex + canonical — противоречивый сигнал. Canonical говорит «индексируй каноническую версию», noindex — «не индексируй». Google может проигнорировать один из тегов.
- Забытый noindex после запуска — частая проблема при миграции со staging-сервера. Проверяйте мета-теги после каждого деплоя.
- Nofollow для управления PageRank — неэффективная стратегия с 2009 года (PageRank sculpting). Google перераспределяет вес, но не передаёт его другим ссылкам.
Проверка и мониторинг
Google Search Console отображает страницы с noindex в отчёте «Покрытие» с пометкой «Исключено тегом noindex». Регулярная проверка этого отчёта помогает обнаружить случайно добавленные ограничения.
Сервис Index-Now.ru помогает контролировать индексацию: после снятия noindex с важных страниц отправьте их на переиндексацию через платформу, чтобы поисковые системы быстрее обнаружили изменения.
FAQ
Noindex удаляет страницу из индекса или предотвращает добавление?
Оба варианта. Если страница уже проиндексирована, добавление noindex приведёт к её удалению из индекса при следующем обходе роботом. Если страница ещё не проиндексирована — noindex предотвратит добавление.
Nofollow на все ссылки страницы экономит краулинговый бюджет?
Нет. Google может игнорировать nofollow и всё равно переходить по ссылкам. Для управления краулинговым бюджетом используйте robots.txt.
Как быстро Google реагирует на noindex?
Зависит от частоты обхода сайта. Для популярных сайтов — несколько дней. Для редко обходимых — до нескольких недель. Отправка URL через Google Indexing API или Index-Now.ru ускоряет обнаружение изменений.