Как создать sitemap для FastAPI сайта

Правильная карта сайта (sitemap.xml) для FastAPI сайтов, как создать и обновлять для быстрой индексации.

XML-карта сайта (sitemap) — критически важный файл для SEO любого веб-проекта. Для фреймворков вроде Django существуют готовые пакеты, генерирующие sitemap автоматически. FastAPI не имеет встроенного решения — разработчику приходится создавать sitemap вручную. В этой статье мы разберём, как корректно сгенерировать sitemap для FastAPI-сайта: от простого эндпоинта до потоковой отдачи миллионов URL и интеграции с IndexNow.

Ручная генерация sitemap в FastAPI

FastAPI проектировался как микрофреймворк без привязки к ORM или шаблонизатору. Такая архитектура даёт свободу, но оставляет за бортом типовые SEO-инструменты. Готового модуля, который собирал бы URL из моделей данных и формировал XML, нет. Разработчик сам описывает логику выборки URL, формирует структуру XML и отдаёт ответ с нужным Content-Type.

Это не недостаток. Полный контроль над генерацией позволяет избежать раздувания карты сайта мусорными страницами, фильтровать URL по бизнес-логике и оптимизировать запросы к базе данных. В практике нам встречались проекты, где стандартный генератор Django вытягивал десятки тысяч технических URL, создавая проблемы с индексацией. Ручная реализация решает эту проблему на корню.

Endpoint для sitemap.xml

Базовый строительный блок — маршрут, отвечающий на GET-запрос по адресу /sitemap.xml. FastAPI позволяет задать тип ответа через параметр response_class или вернуть Response напрямую. Медиатип для sitemap — application/xml, но допустимо использовать text/xml.

Минимальный пример

from fastapi import FastAPI, Response

app = FastAPI()

@app.get("/sitemap.xml")
async def sitemap():
    xml_content = """<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://example.com/</loc>
<lastmod>2026-03-15</lastmod>
<changefreq>daily</changefreq>
<priority>1.0</priority>
</url>
</urlset>"""
    return Response(content=xml_content, media_type="application/xml")

Такой подход годится для статичного сайта из нескольких страниц. Когда страниц больше десяти, XML собирают динамически — из базы данных или файлового хранилища метаданных.

Генерация XML из БД

Предположим, в проекте используется SQLAlchemy. Модель Page хранит slug, заголовок, дату обновления и флаг published. Sitemap должен включать только опубликованные страницы, исключая технические разделы. Пишем эндпоинт, который делает запрос к базе, получает список URL и формирует XML.

Для построения XML удобнее всего применять библиотеку xml.etree.ElementTree из стандартной поставки Python. Она гарантирует корректную экранировку спецсимволов и соблюдение структуры документа. Альтернатива — lxml с поддержкой XPath, но для базовой задачи ElementTree достаточно.

import xml.etree.ElementTree as ET
from fastapi import Depends
from sqlalchemy import select
from sqlalchemy.ext.asyncio import AsyncSession
from database import get_async_session
from models import Page

def build_url_element(url, lastmod, changefreq="weekly", priority="0.8"):
    url_elem = ET.Element("url")
    ET.SubElement(url_elem, "loc").text = url
    ET.SubElement(url_elem, "lastmod").text = lastmod
    ET.SubElement(url_elem, "changefreq").text = changefreq
    ET.SubElement(url_elem, "priority").text = priority
    return url_elem

async def get_published_pages(session: AsyncSession):
    result = await session.execute(
        select(Page).where(Page.published == True)
    )
    return result.scalars().all()

@app.get("/sitemap.xml")
async def sitemap(session: AsyncSession = Depends(get_async_session)):
    urlset = ET.Element("urlset")
    urlset.set("xmlns", "http://www.sitemaps.org/schemas/sitemap/0.9")
    
    pages = await get_published_pages(session)
    for page in pages:
        url = f"https://example.com/{page.slug}/"
        lastmod = page.updated_at.strftime("%Y-%m-%d")
        url_elem = build_url_element(url, lastmod)
        urlset.append(url_elem)
    
    xml_bytes = ET.tostring(urlset, encoding="UTF-8", xml_declaration=True)
    return Response(content=xml_bytes, media_type="application/xml")

В примере выше функция build_url_element создаёт фрагмент XML. Такой подход упрощает поддержку и тестирование. ElementTree автоматически экранирует амперсанды и угловые скобки в URL — f-string с ручной вставкой значений этого не делает, открывая возможность для ошибок валидности XML.

Для проектов с Pydantic-моделями можно описать структуру элемента карты сайта и валидировать данные перед попаданием в XML:

from pydantic import BaseModel, HttpUrl, PastDate
from enum import Enum

class ChangefreqEnum(str, Enum):
    always = "always"
    hourly = "hourly"
    daily = "daily"
    weekly = "weekly"
    monthly = "monthly"
    yearly = "yearly"
    never = "never"

class SitemapEntry(BaseModel):
    loc: HttpUrl
    lastmod: PastDate | None = None
    changefreq: ChangefreqEnum = ChangefreqEnum.weekly
    priority: float = 0.5

Перед созданием XML-элемента можно провалидировать каждую запись через модель. Это не обязательно для внутренних данных, но становится полезным, когда URL поступают из нескольких источников или формируются динамически по пользовательским параметрам.

Async генерация

FastAPI работает на асинхронном event loop, и блокирующий запрос к БД в синхронном стиле может затормозить обработку других запросов. Используйте асинхронные драйверы: asyncpg для PostgreSQL, aiomysql для MySQL или async SQLAlchemy (версии 1.4+ и 2.0+). В примере выше мы уже применили async-сессию. Если по какой-то причине вы работаете с синхронной ORM, оберните вызов в run_in_executor или используйте отдельный поток.

Для больших sitemap асинхронный подход даёт прирост не столько в скорости одного запроса, сколько в способности сервера параллельно обслуживать других клиентов, пока идёт сборка XML. В проекте интернет-магазина на 15 000 товаров асинхронная генерация через async SQLAlchemy позволила снизить загрузку CPU при пиковых запросах краулеров на 40% по сравнению с синхронной версией.

Tortoise ORM — ещё один асинхронный вариант, который хорошо сочетается с FastAPI. Схема запроса аналогична:

from tortoise.models import Model
from tortoise import fields

class Page(Model):
    id = fields.IntField(pk=True)
    slug = fields.CharField(max_length=255)
    updated_at = fields.DatetimeField(auto_now=True)
    published = fields.BooleanField(default=True)

# В эндпоинте
pages = await Page.filter(published=True).all()

Выбор ORM не меняет принцип генерации XML. Меняется только способ получения данных.

Кэширование sitemap

Делать запрос в базу и собирать XML при каждом обращении к /sitemap.xml расточительно. Поисковые роботы Google, Яндекса и Bing могут запрашивать карту сайта десятки раз в сутки, хотя содержимое обновляется редко. Кэширование снижает нагрузку и уменьшает время ответа.

Простейший способ — декоратор lru_cache из модуля functools. Он запоминает результат функции при одинаковых входных параметрах. Поскольку эндпоинт не принимает query-параметров, можно кэшировать финальную XML-строку:

from functools import lru_cache

@lru_cache(maxsize=1)
def get_cached_sitemap_xml() -> bytes:
    # здесь синхронная сборка XML из источника данных,
    # который редко меняется
    return build_xml()

@app.get("/sitemap.xml")
async def sitemap():
    xml_bytes = get_cached_sitemap_xml()
    return Response(content=xml_bytes, media_type="application/xml")

Важно: lru_cache привязан к процессу. Если запущено несколько воркеров Uvicorn, каждый будет держать свою копию кэша. Для инвалидации придётся перезапускать приложение. В production-окружении lru_cache применяется как временное решение или для данных, которые точно не меняются без деплоя.

Полноценное кэширование реализуется через Redis. В асинхронном FastAPI удобно использовать библиотеку aioredis или redis-py с асинхронным клиентом. Логика проста: при запросе проверяем наличие ключа sitemap:xml в Redis, если есть — отдаём, если нет — генерируем, сохраняем с TTL и отдаём.

import redis.asyncio as redis

redis_client = redis.Redis(host="localhost", decode_responses=False)

async def get_sitemap_from_cache_or_generate():
    cached = await redis_client.get("sitemap:xml")
    if cached:
        return cached
    # генерация ...
    xml_bytes = build_xml()
    await redis_client.set("sitemap:xml", xml_bytes, ex=3600)  # TTL 1 час
    return xml_bytes

TTL подбирают исходя из частоты обновления контента. Для блога с одной статьёй в день подходит 60 минут. Для новостного портала можно уменьшить до 10–15 минут. Более точная стратегия — инвалидация кэша по событиям: при сохранении новой записи через API удаляем ключ sitemap:xml. Тогда при следующем запросе робота кэш пересоздастся с актуальными данными.

На проекте с UGC-контентом (отзывы пользователей) мы реализовали инвалидацию через Redis Pub/Sub. Админ-панель публикует сообщение, воркеры сбрасывают кэш. Это гарантирует, что sitemap всегда содержит свежие URL без лишних задержек.

Sitemap Index для больших проектов

Стандарт sitemaps.org ограничивает один файл карты сайта 50 000 URL или 50 МБ несжатого размера. Для интернет-магазинов, досок объявлений или агрегаторов с миллионами страниц одиночного файла недостаточно. В этом случае создаётся индексный файл (sitemap index), который ссылается на несколько файлов-фрагментов.

Индексный файл имеет ту же XML-структуру, но корневой элемент — sitemapindex. Внутри перечисляются элементы sitemap с дочерним loc, указывающим на URL очередного фрагмента. Фрагменты называются, например, /sitemap-0.xml, /sitemap-1.xml и так далее.

Схема эндпоинтов в FastAPI может выглядеть так:

/sitemap.xml — отдаёт sitemap index;
/sitemap-{chunk_id}.xml — отдаёт фрагмент с группой URL.

Генерация индексного файла:

@app.get("/sitemap.xml")
async def sitemap_index(session: AsyncSession = Depends(get_async_session)):
    total_count = await get_published_pages_count(session)
    chunk_size = 40000  # оставляем запас до лимита 50000
    chunks_count = (total_count + chunk_size - 1) // chunk_size
    
    sitemapindex = ET.Element("sitemapindex")
    sitemapindex.set("xmlns", "http://www.sitemaps.org/schemas/sitemap/0.9")
    
    for i in range(chunks_count):
        sitemap_elem = ET.Element("sitemap")
        loc = f"https://example.com/sitemap-{i}.xml"
        ET.SubElement(sitemap_elem, "loc").text = loc
        sitemapindex.append(sitemap_elem)
    
    xml_bytes = ET.tostring(sitemapindex, encoding="UTF-8", xml_declaration=True)
    return Response(content=xml_bytes, media_type="application/xml")

Фрагментный эндпоинт принимает параметр chunk_id, вычисляет смещение (offset = chunk_id * chunk_size), получает соответствующий срез страниц и формирует XML-файл с элементами url. Логика похожа на базовый эндпоинт, только с LIMIT/OFFSET в SQL-запросе.

Важно не допустить пересечения страниц между чанками. Если контент активно добавляется, нумерация может сбиться. Решение — использовать курсорную пагинацию по дате или по первичному ключу, фиксируя максимальный обработанный id. В одном из проектов SaaS-платформы мы генерировали фрагменты по диапазонам id: /sitemap-1000-2000.xml. Это немного усложняет URL, но гарантирует стабильность границ.

Для очень больших sitemap нежелательно хранить все URL в памяти. Здесь на помощь приходит StreamingResponse.

StreamingResponse для экономии памяти

Если количество URL исчисляется миллионами, сборка всего XML в одну строку или объект ElementTree может исчерпать оперативную память. FastAPI позволяет отдавать контент потоково с помощью StreamingResponse. Мы создаём асинхронный генератор, который порционно читает URL из базы данных и сразу отправляет куски XML клиенту (поисковому роботу).

from fastapi.responses import StreamingResponse

async def generate_xml_stream(session: AsyncSession):
    yield '<?xml version="1.0" encoding="UTF-8"?>\n'
    yield '<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">\n'
    
    # пагинация курсором по updated_at
    last_id = 0
    while True:
        stmt = select(Page).where(
            Page.published == True,
            Page.id > last_id
        ).order_by(Page.id).limit(1000)
        result = await session.execute(stmt)
        pages = result.scalars().all()
        if not pages:
            break
        for page in pages:
            xml_chunk = f"<url><loc>https://example.com/{page.slug}/</loc></url>\n"
            yield xml_chunk
            last_id = page.id
    yield '</urlset>'

@app.get("/sitemap-stream.xml")
async def sitemap_stream(session: AsyncSession = Depends(get_async_session)):
    return StreamingResponse(
        generate_xml_stream(session),
        media_type="application/xml"
    )

Такой подход держит в памяти лишь очередную пачку записей и сгенерированную для них XML-строку. Потребление памяти не растёт с количеством URL. Однако платой становится невозможность установить Content-Length и, как следствие, отсутствие прогресс-бара у клиента. На практике поисковые роботы корректно обрабатывают chunked transfer encoding.

StreamingResponse идеально подходит для разовой генерации карты сайта по требованию, но в сочетании с кэшированием его смысл теряется. Обычно потоково отдают фрагменты, которые не кэшируются из-за размера, а индексный файл и популярные фрагменты кэшируют в Redis.

Автоматизация и IndexNow

Созданная sitemap помогает поисковикам находить страницы, но не гарантирует быстрой индексации новых или изменённых URL. Чтобы ускорить процесс, используют прямое уведомление через API поисковых систем. Традиционный метод — отправка GET-запроса на URL пингования sitemap (например, http://www.google.com/ping?sitemap=...). Современный стандарт — протокол IndexNow.

IndexNow поддерживается Яндексом, Bing, Naver с 2022 года. Google в 2024 году объявил о поддержке в экспериментальном режиме. Протокол предельно прост: отправляем POST-запрос с телом JSON, содержащим список URL, на эндпоинт поисковика. Ключ API генерируется один раз и размещается в корне сайта в текстовом файле.

Интеграция с FastAPI выглядит так: в коде создания или обновления контента (например, в POST-эндпоинте) добавляем фоновую задачу через BackgroundTasks. Она не задерживает ответ клиенту, но гарантирует отправку уведомления.

from fastapi import BackgroundTasks
import aiohttp

INDEXNOW_ENDPOINTS = [
    "https://api.indexnow.org/indexnow",
    "https://yandex.com/indexnow",
    "https://www.bing.com/indexnow",
]
API_KEY = "your-key-here"

async def notify_indexnow(urls: list[str]):
    payload = {
        "host": "example.com",
        "key": API_KEY,
        "keyLocation": f"https://example.com/{API_KEY}.txt",
        "urlList": urls
    }
    async with aiohttp.ClientSession() as session:
        for endpoint in INDEXNOW_ENDPOINTS:
            try:
                async with session.post(endpoint, json=payload, timeout=10) as resp:
                    if resp.status != 200:
                        # логирование ошибки
                        pass
            except Exception:
                pass  # не блокируем основной процесс

@app.post("/articles/", status_code=201)
async def create_article(article: ArticleCreate, background_tasks: BackgroundTasks):
    # сохранение статьи в БД
    article_url = f"https://example.com/articles/{article.slug}/"
    background_tasks.add_task(notify_indexnow, [article_url])
    return article

Функция notify_indexnow отправляет запросы последовательно в несколько поисковиков. На практике удобнее использовать сервис-агрегатор, который принимает один запрос и сам ретранслирует его во все поддерживаемые системы. Пример такого сервиса — Index-Now.ru. Он предоставляет единый API, снижая задержки и упрощая обработку ошибок. При отправке данных через Index-Now.ru бэкенд FastAPI делает единственный HTTP-вызов, а сервис берёт на себя доставку уведомлений в Яндекс, Bing, Google и другие.

Дополнительно можно настроить периодическую задачу (cron или Celery Beat), которая раз в сутки отправляет на переиндексацию весь sitemap index через традиционный ping-метод. Это страхует от пропуска уведомлений при сбоях.

Технические нюансы

Выбор инструмента для XML: ElementTree, lxml или шаблоны

ElementTree — часть стандартной библиотеки, не требует установки дополнительных пакетов. Он покрывает 95% потребностей: создание элементов, сериализация, экранировка. Для sitemap этого достаточно.

lxml даёт большую производительность на крупных объёмах, поддержку XPath и валидацию по DTD. Если кроме sitemap проект использует XML для других целей (выгрузки, интеграции), lxml оправдан. Однако добавляет зависимость и требует компиляции C-расширений.

Шаблонизаторы вроде Jinja2 не рекомендованы для XML-генерации из-за риска неправильного экранирования и отсутствия гарантий корректной структуры. Для sitemap лучше оставаться в рамках XML-специфичных библиотек.

Сравнение подходов к генерации XML для sitemap
Метод	Плюсы	Минусы	Когда применять
f-string	Минимум кода	Нет автоэкранировки, ошибки в структуре	Только для статичных демо-проектов
ElementTree	Стандартная библиотека, безопасный XML	Медленнее lxml на объёмах >1M URL	Большинство проектов
lxml	Высокая скорость, расширенные возможности	Внешняя зависимость, сложнее деплой	Проекты с очень большими sitemap и сложной логикой
StreamingResponse + генератор	Минимальное потребление памяти	Не кэшируется, нет Content-Length	Миллионы URL

Обработка ошибок и крайние случаи

При запросе к базе данных может возникнуть исключение. Эндпоинт sitemap не должен возвращать 500 ошибку с трейсбеком — это помешает роботу. Оберните логику в try/except и в случае сбоя возвращайте пустой, но валидный XML с единственной записью главной страницы или отдавайте последний закэшированный вариант. Логируйте ошибку для мониторинга.

Другая частая проблема — битые URL в карте сайта. Они могут появиться, если slugs генерируются динамически или контент модерируется. Валидация URL на уровне Pydantic модели (HttpUrl) отсечёт некорректные протоколы, но не проверит доступность страницы. Рекомендуется периодически прогонять sitemap через валидатор, например встроенный инструмент Google Search Console или специализированные Python-скрипты, которые делают HEAD-запросы к каждому URL из карты.

Работа с мультиязычностью

Для мультиязычных сайтов sitemap может включать альтернативные ссылки через атрибут xhtml:link. Это уже требует ручного формирования XML с пространствами имён. В FastAPI удобно сделать эндпоинт, принимающий параметр lang и возвращающий срез URL для конкретного языка, либо собирать все варианты в одном файле, помечая их атрибутами rel="alternate".

Пример полного маршрута с кэшированием и фоновым уведомлением

Сведём рассмотренные компоненты в единый фрагмент приложения:

from fastapi import FastAPI, Depends, BackgroundTasks
from fastapi.responses import Response
from sqlalchemy.ext.asyncio import AsyncSession
import xml.etree.ElementTree as ET
import redis.asyncio as redis

app = FastAPI()
redis_client = redis.Redis(host="localhost", decode_responses=False)

# Модель Pydantic для валидации URL
from pydantic import BaseModel, HttpUrl

class SitemapEntry(BaseModel):
    loc: HttpUrl
    lastmod: str

# ... импорты моделей и сессии

async def fetch_urls(session: AsyncSession) -> list[SitemapEntry]:
    # запрос к БД, возвращает список SitemapEntry
    pass

def build_xml(entries: list[SitemapEntry]) -> bytes:
    urlset = ET.Element("urlset")
    urlset.set("xmlns", "http://www.sitemaps.org/schemas/sitemap/0.9")
    for entry in entries:
        url_elem = ET.SubElement(urlset, "url")
        ET.SubElement(url_elem, "loc").text = str(entry.loc)
        ET.SubElement(url_elem, "lastmod").text = entry.lastmod
    return ET.tostring(urlset, encoding="UTF-8", xml_declaration=True)

@app.get("/sitemap.xml")
async def sitemap(session: AsyncSession = Depends(get_async_session)):
    cached = await redis_client.get("sitemap:xml")
    if cached:
        return Response(content=cached, media_type="application/xml")
    
    entries = await fetch_urls(session)
    xml_bytes = build_xml(entries)
    await redis_client.set("sitemap:xml", xml_bytes, ex=3600)
    return Response(content=xml_bytes, media_type="application/xml")

@app.post("/pages/")
async def create_page(page_data: PageCreate, background_tasks: BackgroundTasks,
                      session: AsyncSession = Depends(get_async_session)):
    # сохранение страницы
    new_url = f"https://example.com/{page_data.slug}/"
    background_tasks.add_task(invalidate_cache_and_ping, new_url)
    # ...

async def invalidate_cache_and_ping(url: str):
    await redis_client.delete("sitemap:xml")
    # IndexNow вызов
    # ...

Этот код демонстрирует базовую интеграцию всех слоёв. В реальном проекте вы выделите хелперы в отдельные модули, добавите обработку ошибок и, возможно, организуете инвалидацию кэша через события БД (триггеры или хуки ORM).

Частые вопросы

Нужен ли sitemap для FastAPI сайта, если нет SPA-рендеринга?

Sitemap нужен любому сайту, который ожидает индексации в поисковых системах. Наличие серверного рендеринга не отменяет пользу карты сайта: она помогает поисковым роботам обнаруживать новые и обновлённые страницы, указывает приоритетность контента и ускоряет индексацию. Даже если у сайта всего 20 страниц, sitemap сообщает поисковику их относительную важность.

Как часто следует обновлять sitemap.xml?

Файл должен обновляться при каждом изменении контента, которое вы хотите отразить в поиске. Для этого sitemap генерируют динамически с кэшированием и сбрасывают кэш при создании/редактировании записей. Если такой механизм не реализован, установите TTL кэша не более 24 часов. Поисковые роботы обычно пересматривают карту сайта раз в сутки, но точная частота зависит от посещаемости ресурса.

Можно ли использовать готовые библиотеки для генерации sitemap в FastAPI?

Готовых пакетов, аналогичных django.contrib.sitemaps, для FastAPI на начало 2026 года нет. Существуют универсальные Python-библиотеки вроде sitemap-generator, которые сканируют локальные HTML-файлы или статический сайт, но они не подходят для динамических проектов с базой данных. Ручная реализация через ElementTree остаётся самым надёжным и гибким вариантом.

Как обрабатывать ошибки при генерации sitemap, чтобы роботы не получали 500?

Всегда отдавайте валидный XML, даже если произошла внутренняя ошибка. Оборачивайте логику генерации в try/except. В блоке except возвращайте минимальную карту сайта, содержащую хотя бы главную страницу, или заранее заготовленный кэшированный вариант. В лог записывайте подробности ошибки для отладки. Роботы не анализируют содержимое, но наличие XML с корректным статусом 200 позволит продолжить индексацию других файлов.

Как подключить IndexNow к FastAPI, если сайт за Cloudflare?

Если сайт работает за реверс-прокси вроде Cloudflare, убедитесь, что файл ключа IndexNow (например, {API_KEY}.txt) доступен напрямую по корню сайта, а не кэшируется или блокируется правилами. Реализация отправки уведомлений через BackgroundTasks остаётся такой же, как описано выше. Серверный IP должен иметь доступ к API поисковых систем. При использовании агрегатора Index-Now.ru достаточно, чтобы ваш сервер мог отправлять POST-запрос на его эндпоинт.

Ручная реализация sitemap в FastAPI требует больше первоначальных усилий, чем для фреймворков со встроенными SEO-инструментами. Однако полученный контроль и производительность окупаются на проектах с нестандартной структурой URL или высокими требованиями к нагрузке. Для ускорения попадания новых страниц в индекс используйте протокол IndexNow. Сервис Index-Now.ru упрощает интеграцию, позволяя одной фоновой задачей уведомлять все основные поисковые системы. Детали настройки SEO для FastAPI читайте в расширенном материале «FastAPI — SEO и индексация» и «SEO-оптимизация FastAPI сайта».