← Claude на русском
AI-гайд
Эту статью целиком написал Claude Opus 4.7 (ИИ). Это не перевод и не официальная документация — собственный обзор ИИ на основе публичных источников. Для критичных решений проверяй факты сам.

Как работают LLM: фундамент

Составил: Claude · 2026-04-27

Чтобы работать с Claude Code и с GPT-5.4-mini внутри своего бота спокойно, не обязательно понимать математику. Но шесть концептов стоит знать на уровне «как устроен холодильник, не углубляясь в термодинамику»: токен, окно контекста, переполнение, температура, галлюцинации, lost-in-the-middle. Без них работа с моделью превращается в магию — а магия плохо отлаживается.

Токен — единица, которой меряется всё

LLM (large language model — «большая языковая модель») не видит буквы и не видит слова. Она видит токены — куски текста, которые модель перевела в числа на этапе обучения. Один токен — это часто слово целиком, часто кусок слова, иногда символ.

Эвристика для русского текста: 1 слово ≈ 2–3 токена, для английского — 1 слово ≈ 1.3 токена (английский «упакован» плотнее, потому что моделей училось больше на английском). Это не точно, но даёт правильный порядок величины.

Зачем тебе это знать:

Окно контекста — оперативная память модели

LLM не имеет долговременной памяти. Между запросами она забывает всё. Каждый запрос — это отдельный фокус, в котором модель видит ровно то, что ты ей передала: системный промпт + историю переписки + последнее сообщение.

Сколько помещается в этот фокус, и есть окно контекста. У современных моделей — порядка 200 тысяч токенов (≈ 150 000 слов, ≈ 500 страниц книги). Это много, но конечно. И есть тонкий момент: размер окна и качество работы внутри окна — разные вещи.

Что значит «модель забыла»

Когда твой бот ведёт долгий диалог с пользователем, ты обычно отправляешь в OpenAI всю историю сообщений плюс системный промпт. «Забыла» означает одно из трёх:

Переполнение контекста — что с этим делать в боте

Для бота на aiogram + SQLite типичный паттерн: история диалога хранится в твоей таблице, и при каждом запросе ты собираешь последние N сообщений и передаёшь модели. Когда диалог становится длинным, у тебя три стратегии:

  1. Срез (window). Брать только последние K сообщений (например, последние 20). Просто, но теряются ранние решения («пользователь сказал, что у него депрессия» — а через 30 сообщений модель этого уже не видит).
  2. Сжатие (summary). Каждые N сообщений просить отдельным запросом коротко суммировать прошлое («пользователь: имя, важные факты, текущая цель») и хранить эту сводку в user_notes. В следующий запрос подаёшь сводку + последние сообщения. Это — то же самое, что делает /compact в Claude Code.
  3. Структурированная память. Извлекать факты в твою БД (users.adhd_severity, user_notes.long_term_goal) и подкладывать их в системный промпт точечно. Самый трудоёмкий вариант, но самый надёжный — модель не «забывает» того, что лежит в структурированном виде.

На практике для бота с СДВГ-памятью разумно сочетать (3) для долгосрочных вещей (цели, диагноз) и (1) для оперативного диалога.

Температура — насколько модель «играет»

На каждом шаге модель выбирает следующий токен из распределения вероятностей. Температура (параметр API, temperature, от 0 до 2) управляет тем, насколько жёстко выбирается самый вероятный токен.

Эвристика: если модель пишет одно и то же одинаковыми словами — подними температуру. Если стала отвечать невпопад или путать факты — опусти. Большинство случаев в твоём боте лежит между 0 и 0.7.

Галлюцинации — модель уверенно придумывает

LLM обучена выдавать правдоподобный следующий токен, а не правдивый. Если в её обучающих данных есть закономерность «после такого вопроса обычно идёт такой ответ» — она его выдаст, даже если конкретно для твоего случая это выдумка.

Типичные случаи в боте:

Что снижает галлюцинации:

Подробнее — в адаптации «Снижение галлюцинаций».

Lost-in-the-middle — где «лежит» инструкция, важно

Внутри окна контекста информация извлекается неравномерно. В исследованиях 2023–2024 годов (Liu et al., «Lost in the Middle») обнаружили: если положить нужный факт в самое начало или самый конец длинного контекста — модель его находит почти всегда. Если положить в середину — точность падает.

Хорошая новость: с тех пор модели сильно подтянулись. У современных Opus, Sonnet и GPT-5 на тесте «иголка в стоге сена» (needle in a haystack) точность близка к 100% при заполнении окна на 100–200 тысяч токенов. То есть «середину уже не теряют» — почти.

Плохая новость: на сложных задачах (не «найти факт», а «применить правило, которое лежит в середине, к ситуации в конце») эффект ослабел, но не исчез. Поэтому эвристика жива: важное кладём в начало и в конец, не закапываем в середину.

Где это применяется к твоему боту:

Памятка

Что почитать дальше