Глоссарий параметров OpenAI-compatible API для пользователя

Статус: черновик для проверки ITGLOBAL.COM
Версия: 2026-07-01
Назначение: объяснить простым языком, на что влияют параметры генерации LLM в OpenWebUI, AIaaS и OpenAI-compatible API.

1. Главное правило

Обычному пользователю не нужно менять все параметры. В большинстве случаев достаточно выбрать модель и написать хороший запрос.

Параметры нужны, когда нужно управлять стилем ответа:

сделать ответ более строгим и предсказуемым;
получить больше вариантов;
ограничить длину;
снизить повторения;
зафиксировать формат ответа.

2. Быстрые рекомендуемые настройки

Диапазоны ниже — предварительные стартовые рекомендации для пользователей. Они не являются SLA, прайсом или обязательной настройкой сервиса.

Сценарий	Temperature	Top P	Max tokens	Комментарий
Деловое письмо	0.2-0.5	0.8-1.0	500-1500	меньше креатива, больше контроля
Краткое резюме документа	0.1-0.3	0.8-1.0	800-2000	важно не фантазировать
Идеи, варианты, мозговой штурм	0.7-1.0	0.9-1.0	1000-3000	больше разнообразия
Классификация или извлечение полей	0.0-0.2	0.8-1.0	300-1000	максимально стабильный ответ
Техническая инструкция	0.2-0.4	0.8-1.0	1000-3000	баланс точности и полноты

3. Temperature

Что делает:

Управляет случайностью ответа. Чем выше значение, тем свободнее и разнообразнее формулировки. Чем ниже значение, тем ответ стабильнее и суше.

Как использовать:

0.0-0.2 — точные задачи, классификация, извлечение данных, формальные ответы;
0.3-0.6 — деловые письма, резюме, технические ответы;
0.7-1.0 — идеи, варианты, креативные формулировки.

Практический совет:

Если модель начинает фантазировать или пишет слишком свободно, уменьшите temperature.

4. Top P

Что делает:

Ограничивает выбор слов наиболее вероятными вариантами. Это еще один способ управлять разнообразием ответа.

Как использовать:

1.0 — модель использует полный вероятностный выбор;
0.8-0.9 — чуть более контролируемый ответ;
ниже 0.8 — использовать осторожно, ответ может стать слишком узким или однообразным.

Практический совет:

Обычно не нужно одновременно активно менять и temperature, и top_p. Для обычных пользователей проще управлять только temperature, а top_p оставить около 1.0.

5. Top K

Что делает:

Ограничивает выбор модели только K наиболее вероятными следующими токенами.

Важно:

top_k не является стандартным параметром OpenAI Chat Completions API, но часто встречается в локальных inference-серверах и интерфейсах для open-source моделей, включая некоторые Ollama/LLM-настройки.

Как использовать:

20-40 — более строгий и предсказуемый ответ;
40-100 — больше разнообразия;
если параметр недоступен в интерфейсе, его можно не трогать.

Практический совет:

Для AIaaS через OpenAI-compatible API чаще достаточно temperature и top_p. Top K стоит объяснять как опциональный параметр для локальных моделей или отдельных backend.

6. Max tokens / Max completion tokens

Что делает:

Ограничивает максимальную длину ответа модели.

Как использовать:

300-500 — короткий ответ, письмо, резюме;
1000-2000 — подробный ответ или инструкция;
3000+ — длинный анализ, но зависит от модели и лимитов сервиса.

Практический совет:

Если ответ обрывается, увеличьте лимит. Если ответы слишком длинные и расходуют квоту, уменьшите лимит и попросите отвечать кратко.

7. Stop sequences

Что делает:

Задает фразы или символы, на которых модель должна остановить генерацию.

Пример:

Если указать stop sequence ###, модель остановится, когда дойдет до этого маркера.

Практический совет:

Обычным пользователям обычно не нужно менять этот параметр. Он полезен в интеграциях и шаблонах, где ответ должен завершаться строго в определенном месте.

8. Presence penalty

Что делает:

Снижает склонность модели снова возвращаться к уже упомянутым темам. Может помогать, если нужен более широкий набор идей.

Как использовать:

0 — без штрафа, стандартное поведение;
0.2-0.8 — модель чаще добавляет новые темы;
высокие значения могут сделать ответ менее сфокусированным.

Практический совет:

Для деловых и технических ответов обычно оставлять 0.

9. Frequency penalty

Что делает:

Снижает повторение одних и тех же слов и фраз.

Как использовать:

0 — стандартное поведение;
0.2-0.8 — меньше повторов;
слишком высокое значение может ухудшить стиль и точность.

Практический совет:

Если модель повторяет одну мысль несколько раз, можно немного увеличить frequency penalty.

10. Seed

Что делает:

Помогает получать более повторяемые ответы при одинаковом запросе и одинаковых настройках, если модель и backend поддерживают этот параметр.

Важно:

Даже с seed абсолютная идентичность ответа не всегда гарантируется: результат может зависеть от модели, версии backend и системных настроек.

Практический совет:

Обычным пользователям seed обычно не нужен. Он полезнее для тестирования и сравнения промптов.

11. Stream

Что делает:

Если включено, ответ отображается постепенно, по мере генерации. Если выключено, ответ появляется целиком после завершения.

Как использовать:

включить для обычного чата, чтобы быстрее видеть начало ответа;
выключить для интеграций, где нужен готовый полный ответ одним блоком.

12. System prompt / Instructions

Что делает:

Задает роль, стиль и правила поведения модели до пользовательского запроса.

Пример:

Ты помощник финансового отдела. Отвечай кратко, деловым стилем. Не выдумывай суммы и даты, если их нет в исходном тексте.

Практический совет:

Это один из самых полезных параметров для бизнеса. Лучше задать понятную инструкцию, чем пытаться исправить ответ только temperature.

13. Response format

Что делает:

Помогает зафиксировать формат ответа, например обычный текст или JSON, если backend поддерживает такой режим.

Как использовать:

обычный текст — для пользователей;
JSON — для интеграций, автоматизации, выгрузки структурированных данных.

Практический совет:

Для пользователя лучше просить формат прямо в запросе: «ответь таблицей», «дай список из 5 пунктов», «верни JSON». Для интеграций формат лучше фиксировать параметрами API.

14. Tools / Function calling

Что делает:

Позволяет модели вызывать внешние функции или инструменты, если приложение и модель это поддерживают.

Примеры:

поиск в базе знаний;
вызов CRM;
расчет по калькулятору;
создание тикета.

Практический совет:

Для простого чат-интерфейса этот параметр обычно не нужен. Он важен для интеграций и агентских сценариев.

15. Logit bias

Что делает:

Позволяет повышать или снижать вероятность отдельных токенов.

Практический совет:

Это технический параметр. Обычным пользователям его лучше не менять.

16. Model

Что делает:

Определяет, какая модель будет отвечать.

Как выбирать:

быстрая и недорогая модель — для черновиков, резюме, простых писем;
более сильная модель — для сложного анализа, технических текстов, аккуратной редакции;
специализированная модель — для OCR, ASR, embeddings, reranking, PII или других отдельных задач, если они доступны.

Практический совет:

Если ответ слабый, сначала попробуйте улучшить запрос и только потом менять модель.

17. Tokens

Что это:

Токены — это единицы текста, которыми модель обрабатывает запрос и ответ. Один токен примерно соответствует части слова, слову или знаку препинания. Точное соотношение зависит от языка и модели.

Почему важно:

токены влияют на расход квоты;
длинные документы потребляют больше токенов;
длинные ответы тоже потребляют токены;
у каждой модели есть ограничение контекста.

Практический совет:

Если нужно сэкономить квоту, просите отвечать кратко и не отправляйте лишний текст.

18. Context window

Что это:

Максимальный объем текста, который модель может учитывать за один запрос: пользовательский текст, история диалога, системные инструкции и ответ.

Практический совет:

Если документ большой, лучше просить анализировать его частями или использовать RAG/поиск по документам, если такой сценарий настроен.

19. Рекомендуемые профили настроек

Строгий деловой режим

temperature: 0.2
top_p: 1.0
presence_penalty: 0
frequency_penalty: 0

Подходит для писем, резюме, регламентов, ответов клиентам.

Креативный режим

temperature: 0.8
top_p: 1.0
presence_penalty: 0.3
frequency_penalty: 0.2

Подходит для идей, вариантов названий, маркетинговых формулировок.

Извлечение данных

temperature: 0.0
top_p: 1.0
presence_penalty: 0
frequency_penalty: 0

Подходит для задач вроде «найди в тексте дату, сумму, контрагента и срок оплаты».

20. Что лучше не менять без необходимости

Обычному пользователю обычно не нужно менять:

logit_bias;
tools / function calling;
seed;
stop sequences;
top_k, если он не используется конкретным backend;
penalties, если нет явных повторов.

21. Источники и ограничения

Локальная база ITGLOBAL.COM:

AIaaS описан как единый API gateway к разным классам моделей.
Потребление AIaaS рассчитывается по входным и выходным токенам с учетом коэффициентов моделей.
В AIaaS доступны сценарии с квотами, RBAC, аналитикой, логированием и PII-функциями.

Внешние источники:

OpenAI API Reference, Chat Completions: https://platform.openai.com/docs/api-reference/chat
OpenAI API Reference, Responses: https://platform.openai.com/docs/api-reference/responses/create
OpenWebUI documentation, OpenAI-compatible provider setup: https://docs.openwebui.com/getting-started/quick-start/connect-a-provider/starting-with-openai-compatible/

Ограничения:

набор доступных параметров зависит от конкретной модели, endpoint и настроек AIaaS;
OpenAI-compatible не означает, что каждый backend поддерживает все параметры OpenAI API;
top_k относится к распространенным параметрам локальных/open-source backend, но не является базовым стандартным параметром OpenAI Chat Completions API.

1. Главное правило​

2. Быстрые рекомендуемые настройки​

3. Temperature​

4. Top P​

5. Top K​

6. Max tokens / Max completion tokens​

7. Stop sequences​

8. Presence penalty​

9. Frequency penalty​

10. Seed​

11. Stream​

12. System prompt / Instructions​

13. Response format​

14. Tools / Function calling​

15. Logit bias​

16. Model​

17. Tokens​

18. Context window​

19. Рекомендуемые профили настроек​

Строгий деловой режим​

Креативный режим​

Извлечение данных​

20. Что лучше не менять без необходимости​

21. Источники и ограничения​

1. Главное правило

2. Быстрые рекомендуемые настройки

3. Temperature

4. Top P

5. Top K

6. Max tokens / Max completion tokens

7. Stop sequences

8. Presence penalty

9. Frequency penalty

10. Seed

11. Stream

12. System prompt / Instructions

13. Response format

14. Tools / Function calling

15. Logit bias

16. Model

17. Tokens

18. Context window

19. Рекомендуемые профили настроек

Строгий деловой режим

Креативный режим

Извлечение данных

20. Что лучше не менять без необходимости

21. Источники и ограничения