Правильный robots.txt для 1С-Битрикс

Оптимальный файл robots.txt для 1С-Битрикс. Какие разделы закрывать от индексации и как правильно указывать директивы.

Правильная настройка robots.txt для сайта на 1С-Битрикс — это не просто техническая формальность. От того, как составлен файл, зависит распределение краулингового бюджета поисковых систем между целевыми страницами каталога и сотнями тысяч служебных URL. Без корректного robots.txt Битрикс генерирует множество дублирующихся страниц с параметрами сортировки, фильтрации, сессионными идентификаторами. Если их не закрыть, поисковик потратит лимиты на обход мусорных страниц, а важные разделы будут индексироваться медленно. В этой статье мы по шагам разберем, как составить правильный robots.txt для 1С-Битрикс с учетом всех нюансов платформы и актуальных требований поисковых систем в 2026 году.

Зачем тщательно настраивать robots.txt в Битрикс

Платформа 1С-Битрикс отличается от многих других CMS высокой степенью динамичности. Каждое действие пользователя — сортировка каталога, применение фильтра, переход по страницам пагинации — формирует новый URL с набором параметров. К этим параметрам добавляются служебные скрипты ядра, папки с административными интерфейсами, личные кабинеты и корзина. Всё это создаёт разветвлённую структуру, в которой легко потеряться поисковому роботу.

На проекте интернет-магазина с каталогом из 15 000 товаров мы зафиксировали, что без детальной настройки robots.txt Битрикс поисковые системы обходили до 120 000 страниц фильтрации с комбинациями свойств. При этом реально ценных страниц товаров и категорий было всего около 16 000. Робот Google тратил до 70% краулингового бюджета на нецелевые URL. В результате обновление сниппетов на товарных страницах задерживалось на недели и дольше.

Качественный robots.txt решает три ключевые задачи. Первая — ограничение доступа к служебным и дублирующимся разделам. Вторая — снижение нагрузки на сервер за счёт уменьшения количества бесполезных запросов. Третья — ускорение индексации действительно важных страниц через перенаправление краулингового бюджета. Поэтому файл нельзя сводить к шаблону из двух директив. Для магазинов и порталов на Битрикс требуется адресная настройка с учётом структуры конкретного сайта.

Где находится файл robots.txt в Битрикс

Как и в любой другой CMS, поисковые роботы ожидают увидеть robots.txt в корне сайта по пути /robots.txt. Физически файл должен располагаться в корневой директории документов, туда же, где находятся index.php и папки /bitrix/, /upload/. В Битрикс предусмотрен встроенный редактор, который позволяет управлять содержимым файла прямо из административного интерфейса.

Путь в панели управления: Маркетинг → Поисковая оптимизация → robots.txt. Этот инструмент подгружает текущее содержимое robots.txt, позволяет вносить правки и сохранять изменения. Однако административный редактор имеет ограничения: он не умеет работать с директивами, специфичными для Яндекса (Clean-param), и не позволяет быстро переключаться между файлами в мультисайтовой конфигурации. В таких случаях надёжнее править файл напрямую через FTP или SSH, а затем проверять синтаксис встроенными средствами Яндекс.Вебмастера и Google Search Console.

При работе с файлом через файловую систему важно сохранять кодировку UTF-8 без BOM и использовать перевод строк в формате LF. Ошибки в кодировке могут привести к тому, что поисковый робот не сможет корректно распознать директивы и проигнорирует весь файл. После каждого изменения проводите валидацию через инструменты для вебмастеров.

Оптимальный robots.txt для интернет-магазина на Битрикс

Ниже приведён полноценный пример robots.txt, адаптированный для типового интернет-магазина на 1С-Битрикс. Все директивы разобраны в следующих подразделах.

User-agent: *
Disallow: /bitrix/
Allow: /bitrix/js/
Allow: /bitrix/css/
Allow: /bitrix/templates/
Disallow: /auth/
Disallow: /personal/
Disallow: /cart/
Disallow: /order/
Disallow: /search/
Disallow: /compare/
Disallow: /favorites/
Disallow: /*?SORT=
Disallow: /*?SECTION_ID=
Disallow: /*?PAGEN_
Disallow: /*?set_filter=
Disallow: /*?SHOWALL_
Disallow: /*?print=
Disallow: /*?ELEMENT_ID=
Disallow: /*?SECTION_CODE=
Disallow: /*?IBLOCK_ID=
Disallow: /*?bitrix_include_areas=
Disallow: /*?clear_cache=
Disallow: /*?action=

Clean-param: utm_source&utm_medium&utm_campaign&utm_term&utm_content&yclid&gclid&_openstat&from&sort&order&mode&view&SHOWALL_&PAGEN_&set_filter&SECTION_ID&ELEMENT_ID

Crawl-delay: 1.5

Sitemap: https://example.com/sitemap.xml
Host: https://example.com

Этот набор директив снимает с индексации типовой мусор, сохраняя доступ к ресурсам, необходимым для корректного рендеринга страниц. Отдельно стоит пояснить каждое правило.

Закрытие /bitrix/

Системная папка /bitrix/ содержит ядро CMS, скрипты администрирования, кеш, логи, компоненты. Попадание этих файлов в индекс не только бессмысленно с точки зрения SEO, но и может раскрыть служебную информацию о структуре сервера. Директива Disallow: /bitrix/ закрывает доступ к этой папке полностью. Однако полное закрытие создаёт побочную проблему: поисковый робот не увидит JavaScript и CSS файлы ядра, необходимые для рендеринга страниц. Google использует эти ресурсы при отрисовке для мобильного индекса и оценки Core Web Vitals.

Чтобы обойти ограничение, применяются исключающие правила Allow. В примере мы разрешаем подпапки /bitrix/js/, /bitrix/css/ и /bitrix/templates/. Первые две содержат статические ресурсы ядра, без которых верстка публичной части сайта может не загрузиться. Папка /bitrix/templates/ хранит файлы шаблонов, включая их стили и скрипты. Эти разрешения указываются до более общих запрещающих директив или после них — порядок следования Allow и Disallow в одном блоке user-agent не важен, но логически проще размещать Allow после Disallow.

На практике встречаются ситуации, когда кастомные шаблоны подключают ресурсы из вложенных папок /bitrix/templates/.template_name/. Поскольку Allow работает по префиксу, разрешение /bitrix/templates/ автоматически включает все вложенные пути. Если вы используете CDN для раздачи статики, возможно, потребность в Allow отпадает. Однако в стандартной поставке Битрикс эти строки обязательны.

Закрытие параметров фильтрации и сортировки

Умный фильтр и сортировки — главные генераторы дублей в интернет-магазине на Битрикс. При выборе любого свойства или направления сортировки в URL добавляются параметры:

SORT — поле и направление сортировки (цена, название, рейтинг).
SECTION_ID — идентификатор раздела инфоблока.
PAGEN_ — номер страницы пагинации.
set_filter — маркер применения фильтра.
SHOWALL_ — отображение всех элементов на одной странице.
print — версия для печати.
ELEMENT_ID — идентификатор конкретного элемента в списке.
SECTION_CODE — символьный код раздела.
IBLOCK_ID — идентификатор инфоблока.

Комбинации этих параметров формируют множество URL, которые ведут на фактически один и тот же контент. Поисковые системы расценивают их как дубликаты, что размывает внутренний вес страницы и может привести к понижению позиций. Закрытие директивой Disallow: /*?PARAM= блокирует индексирование любых URL, содержащих соответствующий GET-параметр. Звёздочка в начале маски разрешает любые символы перед вопросительным знаком, поэтому правило одинаково работает для категорий, товаров и любых других страниц.

Важно различать блокировку через robots.txt и директиву meta-robots noindex. Первая запрещает обход страницы, но не исключает её попадание в индекс, если на страницу ссылаются другие ресурсы. Для гарантированного исключения страниц фильтрации из поиска рекомендуется вместе с Disallow использовать noindex в HTML-коде. Стандартный модуль SEO в Битрикс позволяет задавать шаблоны для установки метатегов на динамические страницы. Такой гибридный подход даёт наилучший результат: робот не тратит краулинговый бюджет на фильтры и не включает их в индекс по внешним ссылкам.

Страницы авторизации и корзины

В эту группу попадают разделы, которые не несут информационной ценности для поискового пользователя:

/auth/ — формы авторизации и регистрации.
/personal/ — личный кабинет с историей заказов, профилем. Содержит персональные данные.
/cart/ — корзина товаров.
/order/ — оформление заказа.
/search/ — страница результатов внутреннего поиска.
/compare/ — сравнение товаров.
/favorites/ — избранное (если используется).

Каждая из этих страниц либо уникальна для сессии пользователя, либо генерирует контент, не подходящий для публичного индекса. Например, результаты внутреннего поиска часто создают бесконечное множество комбинаций слов. Disallow для этих разделов снимает с индексации типовой набор служебных URL, сокращая бесполезный обход на 20–30% в зависимости от объёма каталога.

На проекте с посещаемостью 50 000 уникальных посетителей в месяц мы зафиксировали, что бот Яндекса за сутки пытался просканировать более 8 000 страниц личных кабинетов, открытых через внешние ссылки с форумов. После добавления Disallow на /personal/ количество таких запросов сократилось до нуля, а скорость обхода товарных карточек выросла примерно на 15%.

Мультисайтовость и robots.txt в Битрикс

Ядро 1С-Битрикс поддерживает работу нескольких сайтов на одной лицензии и одном ядре. В такой конфигурации каждый сайт — это отдельная единица с собственным доменом, структурой и контентом. Соответственно, и файл robots.txt должен быть индивидуальным для каждого домена. Встроенный редактор в панели управления по умолчанию работает с основным сайтом, указанным в настройках продукта. Для дополнительных сайтов файл нужно создавать и обслуживать отдельно.

Есть два подхода. Первый — физически разместить разные файлы в корне каждого сайта, если на сервере настроены отдельные document root для доменов. Второй — при общем корне использовать правила mod_rewrite в .htaccess для подмены содержимого в зависимости от запрошенного домена. Второй вариант встречается чаще, поскольку мультисайт в Битрикс обычно разворачивается в одной директории.

Пример конфигурации .htaccess для подмены robots.txt:

RewriteEngine On
RewriteCond %{HTTP_HOST} ^site1\.example\.com$ [NC]
RewriteRule ^robots\.txt$ /bitrix/robots/robots_site1.txt [L]

RewriteCond %{HTTP_HOST} ^site2\.example\.com$ [NC]
RewriteRule ^robots\.txt$ /bitrix/robots/robots_site2.txt [L]

Файлы robots_site1.txt и robots_site2.txt размещаются в папке /bitrix/robots/, закрытой от прямого доступа через тот же robots.txt. Такой подход позволяет централизованно управлять настройками индексации для каждого сайта без дублирования корневых папок. Важно не забыть в основном robots.txt прописать Disallow: /bitrix/robots/, чтобы сами файлы с правилами не попали в индекс.

Если сайты работают на поддоменах (например, msk.example.com и spb.example.com), директиву Host в robots.txt можно использовать для указания основного зеркала. Яндекс учитывает Host и рекомендует задавать его явно, особенно когда один и тот же контент доступен по нескольким адресам.

Частые ошибки при настройке robots.txt для Битрикс

На основе аудитов за 2024–2025 годы можно выделить типичные просчёты, которые допускают даже опытные разработчики.

Первая ошибка — полное закрытие /bitrix/ без исключающих Allow для статических ресурсов. Внешне сайт продолжает работать, но Google Search Console начинает сообщать о проблемах с загрузкой ресурсов. В отчёте о сканировании появляются предупреждения «Заблокировано файлом robots.txt». Это мешает системе корректно оценить визуальное представление страницы, что критично для мобильного индекса. В результате страницы могут не попасть в выдачу или потерять позиции.

Вторая ошибка — блокировка AJAX-запросов компонентов. Многие интерактивные элементы интернет-магазина (добавление в корзину, динамическое обновление цены, подгрузка списка товаров) работают через обращения к /bitrix/services/ajax/. Иногда вебмастера добавляют эту папку в Disallow из общих соображений безопасности. Блокировка AJAX лишает страницу важной функциональности при рендеринге, и Google может посчитать страницу некачественной. Убедитесь, что пути для AJAX не закрыты, либо протестируйте рендер через инструмент проверки страницы в консоли.

Третья ошибка — слишком агрессивное закрытие параметров. Например, некоторые используют маску Disallow: /*?, которая блокирует любые URL с параметрами. Это останавливает сканирование не только фильтров, но и динамических страниц товаров, открытых через быстрый просмотр или с UTM-метками. Такие страницы могут быть основными посадочными из рекламных кампаний, и их закрытие нанесёт прямой урон трафику. Лучше перечислять конкретные параметры, а не использовать универсальное правило.

Четвёртая ошибка — отсутствие директивы Sitemap. Карта сайта указывает роботу путь к полному перечню страниц. Для больших магазинов на Битрикс с десятками тысяч товаров это особенно важно. Sitemap.xml генерируется автоматически модулем «Поисковая оптимизация», но её нужно прописать в robots.txt. Без этой директивы поисковик может не найти карту сайта, если она не указана в панели вебмастера.

Технические детали: Clean-param, Crawl-delay, /upload/ и другие нюансы

Директива Clean-param для Яндекса

Clean-param — это директива, специфичная для Яндекса и некоторых других поисковиков, поддерживающих расширение стандарта robots.txt. Она не запрещает обход страниц с параметрами, а сообщает роботу, что указанные GET-параметры не влияют на содержимое страницы и их можно игнорировать при индексации. Это позволяет склеивать дубли и снижать нагрузку без полного закрытия URL.

В примере выше в Clean-param перечислены utm-метки, идентификаторы рекламных систем, параметры сортировки и фильтрации, которые формируют множество адресов с одним и тем же контентом. Яндекс, обработав эту директиву, будет считать URL https://example.com/catalog/?SORT=price_asc и https://example.com/catalog/?SORT=price_desc одинаковыми и не будет их дублировать в индексе, если основной контент не меняется. Важно понимать, что Clean-param работает на уровне всего сайта для всех User-agent, поэтому её размещают вне блоков, привязанных к конкретному роботу.

Google Clean-param не поддерживает. Для управления параметрами в Google используется инструмент «Параметры URL» в интерфейсе старой Search Console (в новой версии этот функционал не представлен в явном виде). Однако корректно настроенный robots.txt с Disallow для нецелевых параметров выполняет ту же функцию — предотвращает обход. Дополнить можно каноническими тегами на страницах фильтрации, указывающими на основную версию.

Crawl-delay для снижения нагрузки

Директива Crawl-delay задаёт минимальную паузу в секундах между последовательными запросами робота к серверу. Для высоконагруженных проектов на Битрикс это полезный инструмент, позволяющий избежать деградации производительности во время интенсивного обхода. В примере установлено значение 1.5 секунды — достаточно консервативное для большинства хостингов. Для мощных выделенных серверов значение можно уменьшить до 0.5, для слабых виртуальных машин — увеличить до 3–5 секунд.

Не все поисковики соблюдают Crawl-delay. Google официально игнорирует эту директиву, предлагая настраивать скорость обхода через панель Search Console. Яндекс, Bing и многие другие боты учитывают Crawl-delay. Поэтому настройка имеет смысл, если основной трафик идёт из Яндекса или если сервер испытывает пики нагрузки от региональных систем. При использовании Crawl-delay важно следить, чтобы задержка не была чрезмерной, иначе индексация замедлится до критических значений.

Обработка папки /upload/

Папка /upload/ в Битрикс хранит загруженные файлы: изображения товаров, документы, медиафайлы. Часто возникает вопрос: нужно ли её закрывать от индексации? Ответ зависит от характера контента. Если в /upload/ лежат картинки, которые используются в карточках товаров и должны индексироваться для поиска по картинкам, закрывать папку нельзя. Google Images должно видеть эти ресурсы.

Если же в /upload/ по каким-либо причинам оказываются файлы, дублирующие контент страниц (например, сгенерированные PDF-версии прайс-листов или копии текстов), то отдельные подпапки можно запретить. Типовой пример: /upload/iblock/ может содержать только изображения — их закрывать не нужно. А вот /upload/pdf/ с технической документацией — при желании закрыть через Disallow: /upload/pdf/. Общих правил нет, решение принимается после анализа реального состава папки.

Важный момент: некоторые версии Битрикс генерируют ссылки на файлы в /upload/ с добавлением временных меток или сессионных идентификаторов в GET-параметрах. Эти параметры уже закрыты общим правилом, если они пересекаются с масками Disallow. Дополнительно стоит убедиться, что картинки не отдаются со статусом 200 по множеству URL — это решается настройкой ЧПУ и 301-редиректами.

Проверка robots.txt и мониторинг

После внесения изменений критически важно протестировать файл. Яндекс.Вебмастер предоставляет инструмент «Анализ robots.txt», который показывает, как робот Яндекса интерпретирует каждую директиву для любого указанного URL. Можно построчно проверить, запрещён или разрешён конкретный адрес. Google Search Console в разделе «Файлы robots.txt» также показывает последнюю считанную версию и позволяет отправить её на проверку.

Через неделю-две после публикации обновлённого файла необходимо проанализировать статистику обхода в панелях вебмастеров. В Яндекс.Вебмастере смотрите разбивку «Страницы в поиске» и «Исключённые страницы». Если количество исключённых URL резко выросло, это ожидаемый результат закрытия фильтров. Но важно убедиться, что среди исключённых нет страниц каталога первого уровня — это признак чересчур агрессивных масок. В Google Search Console используйте отчёт «Страницы, запрещённые файлом robots.txt», чтобы убедиться, что закрыты только целевые группы URL.

Периодический аудит robots.txt стоит проводить раз в квартал или после крупных обновлений структуры сайта. Бывали случаи, когда добавление нового функционала (например, модуля сравнения или отзывов) создавало новые динамические URL, которые старый robots.txt не учитывал. Своевременное обнаружение таких URL через лог-анализатор или счётчики статистики помогает оперативно вносить правки.

Часто задаваемые вопросы

Нужно ли полностью закрывать папку /bitrix/ от индексации?

Да, папку /bitrix/ нужно закрывать, но с исключениями для статических ресурсов. Полное закрытие без Allow приведёт к тому, что поисковые системы не смогут загрузить файлы скриптов и стилей ядра, необходимые для рендеринга страниц. Это вредит пониманию контента роботом и может ухудшить позиции. Обязательно добавьте Allow на /bitrix/js/, /bitrix/css/ и /bitrix/templates/.

Безопасно ли запрещать страницы с параметрами фильтрации через robots.txt?

Безопасно, если вы не запрещаете основные посадочные URL. Используйте конкретные маски параметров, а не универсальное правило /*?. Дополните блокировку метатегом robots noindex на самих страницах фильтрации, чтобы избежать их попадания в индекс по внешним ссылкам. Регулярно проверяйте отчёты по исключённым страницам на предмет случайного закрытия полезных разделов.

Как быстро обновить правила robots.txt после изменения структуры каталога?

Отредактируйте файл через панель управления или напрямую по FTP. Затем отправьте обновлённый robots.txt на проверку через инструменты Яндекс.Вебмастера и Google Search Console. Повторный обход файла происходит автоматически в течение нескольких часов—суток. Для ускорения можно запросить повторный обход в панелях, но гарантировать мгновенное применение правил нельзя — это зависит от очередей поисковых систем.

Влияет ли robots.txt на скорость загрузки сайта?

На скорость загрузки отдельной страницы файл robots.txt не влияет. Однако совокупное влияние через Crawl-delay и уменьшение бесполезных запросов может снизить нагрузку на сервер в моменты интенсивного обхода. Это опосредованно помогает поддерживать стабильное время отклика для посетителей. Настройка Crawl-delay — единственная директива, напрямую регулирующая частоту обращений.

Можно ли использовать robots.txt в мультисайтовой конфигурации без создания отдельных файлов?

Да, можно. Для этого достаточно прописать общие правила в основном robots.txt, а для сайтов, которым нужны отличия, использовать правила в .htaccess для подмены содержимого в зависимости от домена. На практике чаще применяют .htaccess-подход, так как он проще в поддержке и исключает дублирование кода. Однако для небольшого магазина с одним сайтом общий файл в корне вполне достаточен.

После того как robots.txt настроен и протестирован, полезно ускорить попадание новых страниц в индекс. Протокол IndexNow, поддерживаемый Яндексом и Bing, позволяет отправлять уведомления об изменениях напрямую, минуя ожидание планового обхода. Сервис Index-Now.ru автоматизирует отправку таких уведомлений для сайта, собирая данные о новых и обновлённых URL из sitemap.xml или через API. Это сокращает задержку индексации с дней до минут, что особенно важно при частом обновлении каталога или публикации новостей. Интеграция с IndexNow не требует правки robots.txt и дополняет стандартные механизмы обхода.