Перевод с разбором · для Сони

Адаптировал Claude Opus 4.7 (ИИ) на основе документации Anthropic. Полная версия — в docs/prefill-claudes-response.html.

Префилл ответа

Адаптация для Сони · 2026-04-27

Что такое префилл

Префилл (prefill, «задать начало») — техника, при которой ты в API не просто отправляешь модели запрос, а дополнительно начинаешь её ответ за неё. Модель «дописывает» с того места, где ты остановилась.

Зачем это могло быть нужно:

Принудить формат. Если префилл ответа — {, модель скорее всего продолжит JSON, а не «вот ваш ответ:».
Убрать преамбулы. Без префилла модель часто начинает с «Конечно! Вот ваш план:». С префиллом, например, 1. — она сразу пишет первый пункт.
Задать тон. Если префилл — Я понимаю, что сейчас непросто., ответ скорее всего будет в спокойном эмпатичном ключе.

Важное: на современных моделях префилл почти не нужен

Anthropic в свежей документации прямо пишет: «Начиная с Claude 4.6 префилл ответа на последнем ходу ассистента больше не поддерживается». Причина: модели стали достаточно умные, чтобы соблюдать формат и тон без этого приёма. У OpenAI похожая траектория: для GPT-5 семейства проще попросить промптом или использовать structured outputs, чем подсовывать assistant-сообщение с началом ответа.

Поэтому эта статья не про «как делать префилл». Она про то, как заменить префилл, если когда-то ты его использовала, и в каких редких случаях он всё ещё уместен.

Чем заменить префилл

1. Контроль формата → инструкция или structured outputs

Если ты раньше делала префилл {, чтобы получить JSON — сейчас лучше:

Просто попросить. «Ответь JSON-объектом со следующими полями: …» Современные модели соблюдают это надёжно.
Использовать structured outputs OpenAI (response_format со схемой). Модель гарантированно возвращает валидный JSON по схеме, без префилла.

from pydantic import BaseModel

class Plan(BaseModel):
    items: list[str]
    estimated_minutes: int

response = await client.chat.completions.parse(
    model="gpt-5.4-mini",
    messages=messages,
    response_format=Plan,
)
plan: Plan = response.choices[0].message.parsed

2. Убрать преамбулы → прямая инструкция

Если у тебя в ответах болтаются «Конечно!», «Вот план:», «Хороший вопрос!» — добавь в системный промпт:

Отвечай сразу по делу. Не начинай ответы с фраз типа «Конечно»,
«Вот план», «Хороший вопрос», «Я понимаю». Если уместна эмпатия —
выражай её содержательно, не дежурными фразами.

Альтернатива — попросить модель писать ответ внутри <answer>…</answer> и забирать только содержимое тега (см. «XML-теги»).

3. Задать тон → описание и примеры

Тон надёжнее задаётся описанием тона + few-shot (см. «Примеры»), чем префиллом одной фразы. Префилл «учит» модель только начинать с этой фразы; описание + примеры учат стилю ответа в целом.

Когда префилл всё-таки уместен

Редко, но бывает:

Жёсткий формат для парсинга, без structured outputs. Если ты по какой-то причине не используешь response_format, и нужен надёжный JSON — assistant-сообщение, заканчивающееся на {"plan":, ещё работает.
Возобновление прерванного ответа. Если у тебя был длинный ответ и API его обрезал по лимиту токенов — можно сделать новый запрос, в котором последний assistant — обрезанный кусок, а user — «продолжи». В практике для бота с короткими сообщениями это почти не встречается.

Для большинства сценариев в твоём боте префилл — не первый инструмент. Сначала попробуй промпт-инструкцию или structured outputs.

Памятка

Префилл — задать начало ответа модели за неё. На современных моделях почти не нужен.
Контроль формата — structured outputs или просто просьбой.
Убрать преамбулы — инструкцией в system prompt или тегами + парсингом.
Задать тон — описанием тона + few-shot.
Префилл уместен только в редких случаях (жёсткий парсинг без structured outputs, возобновление обрезанного ответа).

← XML-теги Следующая: Цепочка промптов →