Глоссарий параметров OpenAI-compatible API для пользователя
Статус: черновик для проверки ITGLOBAL.COM
Версия: 2026-07-01
Назначение: объяснить простым языком, на что влияют параметры генерации LLM в OpenWebUI, AIaaS и OpenAI-compatible API.
1. Главное правило
Обычному пользователю не нужно менять все параметры. В большинстве случаев достаточно выбрать модель и написать хороший запрос.
Параметры нужны, когда нужно управлять стилем ответа:
- сделать ответ более строгим и предсказуемым;
- получить больше вариантов;
- ограничить длину;
- снизить повторения;
- зафиксировать формат ответа.
2. Быстрые рекомендуемые настройки
Диапазоны ниже — предварительные стартовые рекомендации для пользователей. Они не являются SLA, прайсом или обязательной настройкой сервиса.
| Сценарий | Temperature | Top P | Max tokens | Комментарий |
|---|---|---|---|---|
| Деловое письмо | 0.2-0.5 | 0.8-1.0 | 500-1500 | меньше креатива, больше контроля |
| Краткое резюме документа | 0.1-0.3 | 0.8-1.0 | 800-2000 | важно не фантазировать |
| Идеи, варианты, мозговой штурм | 0.7-1.0 | 0.9-1.0 | 1000-3000 | больше разнообразия |
| Классификация или извлечение полей | 0.0-0.2 | 0.8-1.0 | 300-1000 | максимально стабильный ответ |
| Техническая инструкция | 0.2-0.4 | 0.8-1.0 | 1000-3000 | баланс точности и полноты |
3. Temperature
Что делает:
Управляет случайностью ответа. Чем выше значение, тем свободнее и разнообразнее формулировки. Чем ниже значение, тем ответ стабильнее и суше.
Как использовать:
0.0-0.2— точные задачи, классификация, извлечение данных, формальные ответы;0.3-0.6— деловые письма, резюме, технические ответы;0.7-1.0— идеи, варианты, креативные формулировки.
Практический совет:
Если модель начинает фантазировать или пишет слишком свободно, уменьшите temperature.
4. Top P
Что делает:
Ограничивает выбор слов наиболее вероятными вариантами. Это еще один способ управлять разнообразием ответа.
Как использовать:
1.0— модель использует полный вероятностный выбор;0.8-0.9— чуть более контролируемый ответ;- ниже
0.8— использовать осторожно, ответ может стать слишком узким или однообразным.
Практический совет:
Обычно не нужно одновременно активно менять и temperature, и top_p. Для обычных пользователей проще управлять только temperature, а top_p оставить около 1.0.
5. Top K
Что делает:
Ограничивает выбор модели только K наиболее вероятными следующими токенами.
Важно:
top_k не является стандартным параметром OpenAI Chat Completions API, но часто встречается в локальных inference-серверах и интерфейсах для open-source моделей, включая некоторые Ollama/LLM-настройки.
Как использовать:
20-40— более строгий и предсказуемый ответ;40-100— больше разнообразия;- если параметр недоступен в интерфейсе, его можно не трогать.
Практический совет:
Для AIaaS через OpenAI-compatible API чаще достаточно temperature и top_p. Top K стоит объяснять как опциональный параметр для локальных моделей или отдельных backend.
6. Max tokens / Max completion tokens
Что делает:
Ограничивает максимальную длину ответа модели.
Как использовать:
- 300-500 — короткий ответ, письмо, резюме;
- 1000-2000 — подробный ответ или инструкция;
- 3000+ — длинный анализ, но зависит от модели и лимитов сервиса.
Практический совет:
Если ответ обрывается, увеличьте лимит. Если ответы слишком длинные и расходуют квоту, уменьшите лимит и попросите отвечать кратко.
7. Stop sequences
Что делает:
Задает фразы или символы, на которых модель должна остановить генерацию.
Пример:
Если указать stop sequence ###, модель остановится, когда дойдет до этого маркера.
Практический совет:
Обычным пользователям обычно не нужно менять этот параметр. Он полезен в интеграциях и шаблонах, где ответ должен завершаться строго в определенном месте.
8. Presence penalty
Что делает:
Снижает склонность модели снова возвращаться к уже упомянутым темам. Может помогать, если нужен более широкий набор идей.
Как использовать:
0— без штрафа, стандартное поведение;0.2-0.8— модель чаще добавляет новые темы;- высокие значения могут сделать ответ менее сфокусированным.
Практический совет:
Для деловых и технических ответов обычно оставлять 0.
9. Frequency penalty
Что делает:
Снижает повторение одних и тех же слов и фраз.
Как использовать:
0— стандартное поведение;0.2-0.8— меньше повторов;- слишком высокое значение может ухудшить стиль и точность.
Практический совет:
Если модель повторяет одну мысль несколько раз, можно немного увеличить frequency penalty.
10. Seed
Что делает:
Помогает получать более повторяемые ответы при одинаковом запросе и одинаковых настройках, если модель и backend поддерживают этот параметр.
Важно:
Даже с seed абсолютная идентичность ответа не всегда гарантируется: результат может зависеть от модели, версии backend и системных настроек.
Практический совет:
Обычным пользователям seed обычно не нужен. Он полезнее для тестирования и сравнения промптов.
11. Stream
Что делает:
Если включено, ответ отображается постепенно, по мере генерации. Если выключено, ответ появляется целиком после завершения.
Как использовать:
- включить для обычного чата, чтобы быстрее видеть начало ответа;
- выключить для интеграций, где нужен готовый полный ответ одним блоком.
12. System prompt / Instructions
Что делает:
Задает роль, стиль и правила поведения модели до пользовательского запроса.
Пример:
Ты помощник финансового отдела. Отвечай кратко, деловым стилем. Не выдумывай суммы и даты, если их нет в исходном тексте.
Практический совет:
Это один из самых полезных параметров для бизнеса. Лучше задать понятную инструкцию, чем пытаться исправить ответ только temperature.
13. Response format
Что делает:
Помогает зафиксировать формат ответа, например обычный текст или JSON, если backend поддерживает такой режим.
Как использовать:
- обычный текст — для пользователей;
- JSON — для интеграций, автоматизации, выгрузки структурированных данных.
Практический совет:
Для пользователя лучше просить формат прямо в запросе: «ответь таблицей», «дай список из 5 пунктов», «верни JSON». Для интеграций формат лучше фиксировать параметрами API.
14. Tools / Function calling
Что делает:
Позволяет модели вызывать внешние функции или инструменты, если приложение и модель это поддерживают.
Примеры:
- поиск в базе знаний;
- вызов CRM;
- расчет по калькулятору;
- создание тикета.
Практический совет:
Для простого чат-интерфейса этот параметр обычно не нужен. Он важен для интеграций и агентских сценариев.
15. Logit bias
Что делает:
Позволяет повышать или снижать вероятность отдельных токенов.
Практический совет:
Это технический параметр. Обычным пользователям его лучше не менять.
16. Model
Что делает:
Определяет, какая модель будет отвечать.
Как выбирать:
- быстрая и недорогая модель — для черновиков, резюме, простых писем;
- более сильная модель — для сложного анализа, технических текстов, аккуратной редакции;
- специализированная модель — для OCR, ASR, embeddings, reranking, PII или других отдельных задач, если они доступны.
Практический совет:
Если ответ слабый, сначала попробуйте улучшить запрос и только потом менять модель.
17. Tokens
Что это:
Токены — это единицы текста, которыми модель обрабатывает запрос и ответ. Один токен примерно соответствует части слова, слову или знаку препинания. Точное соотношение зависит от языка и модели.
Почему важно:
- токены влияют на расход квоты;
- длинные документы потребляют больше токенов;
- длинные ответы тоже потребляют токены;
- у каждой модели есть ограничение контекста.
Практический совет:
Если нужно сэкономить квоту, просите отвечать кратко и не отправляйте лишний текст.
18. Context window
Что это:
Максимальный объем текста, который модель может учитывать за один запрос: пользовательский текст, история диалога, системные инструкции и ответ.
Практический совет:
Если документ большой, лучше просить анализировать его частями или использовать RAG/поиск по документам, если такой сценарий настроен.
19. Рекомендуемые профили настроек
Строгий деловой режим
temperature: 0.2
top_p: 1.0
presence_penalty: 0
frequency_penalty: 0
Подходит для писем, резюме, регламентов, ответов клиентам.
Креативный режим
temperature: 0.8
top_p: 1.0
presence_penalty: 0.3
frequency_penalty: 0.2
Подходит для идей, вариантов названий, маркетинговых формулировок.
Извлечение данных
temperature: 0.0
top_p: 1.0
presence_penalty: 0
frequency_penalty: 0
Подходит для задач вроде «найди в тексте дату, сумму, контрагента и срок оплаты».
20. Что лучше не менять без необходимости
Обычному пользователю обычно не нужно менять:
- logit_bias;
- tools / function calling;
- seed;
- stop sequences;
- top_k, если он не используется конкретным backend;
- penalties, если нет явных повторов.
21. Источники и ограничения
Локальная база ITGLOBAL.COM:
- AIaaS описан как единый API gateway к разным классам моделей.
- Потребление AIaaS рассчитывается по входным и выходным токенам с учетом коэффициентов моделей.
- В AIaaS доступны сценарии с квотами, RBAC, аналитикой, логированием и PII-функциями.
Внешние источники:
- OpenAI API Reference, Chat Completions: https://platform.openai.com/docs/api-reference/chat
- OpenAI API Reference, Responses: https://platform.openai.com/docs/api-reference/responses/create
- OpenWebUI documentation, OpenAI-compatible provider setup: https://docs.openwebui.com/getting-started/quick-start/connect-a-provider/starting-with-openai-compatible/
Ограничения:
- набор доступных параметров зависит от конкретной модели, endpoint и настроек AIaaS;
- OpenAI-compatible не означает, что каждый backend поддерживает все параметры OpenAI API;
top_kотносится к распространенным параметрам локальных/open-source backend, но не является базовым стандартным параметром OpenAI Chat Completions API.