Перейти к основному содержимому

Глоссарий параметров OpenAI-compatible API для пользователя

Статус: черновик для проверки ITGLOBAL.COM
Версия: 2026-07-01
Назначение: объяснить простым языком, на что влияют параметры генерации LLM в OpenWebUI, AIaaS и OpenAI-compatible API.

1. Главное правило

Обычному пользователю не нужно менять все параметры. В большинстве случаев достаточно выбрать модель и написать хороший запрос.

Параметры нужны, когда нужно управлять стилем ответа:

  • сделать ответ более строгим и предсказуемым;
  • получить больше вариантов;
  • ограничить длину;
  • снизить повторения;
  • зафиксировать формат ответа.

2. Быстрые рекомендуемые настройки

Диапазоны ниже — предварительные стартовые рекомендации для пользователей. Они не являются SLA, прайсом или обязательной настройкой сервиса.

СценарийTemperatureTop PMax tokensКомментарий
Деловое письмо0.2-0.50.8-1.0500-1500меньше креатива, больше контроля
Краткое резюме документа0.1-0.30.8-1.0800-2000важно не фантазировать
Идеи, варианты, мозговой штурм0.7-1.00.9-1.01000-3000больше разнообразия
Классификация или извлечение полей0.0-0.20.8-1.0300-1000максимально стабильный ответ
Техническая инструкция0.2-0.40.8-1.01000-3000баланс точности и полноты

3. Temperature

Что делает:

Управляет случайностью ответа. Чем выше значение, тем свободнее и разнообразнее формулировки. Чем ниже значение, тем ответ стабильнее и суше.

Как использовать:

  • 0.0-0.2 — точные задачи, классификация, извлечение данных, формальные ответы;
  • 0.3-0.6 — деловые письма, резюме, технические ответы;
  • 0.7-1.0 — идеи, варианты, креативные формулировки.

Практический совет:

Если модель начинает фантазировать или пишет слишком свободно, уменьшите temperature.

4. Top P

Что делает:

Ограничивает выбор слов наиболее вероятными вариантами. Это еще один способ управлять разнообразием ответа.

Как использовать:

  • 1.0 — модель использует полный вероятностный выбор;
  • 0.8-0.9 — чуть более контролируемый ответ;
  • ниже 0.8 — использовать осторожно, ответ может стать слишком узким или однообразным.

Практический совет:

Обычно не нужно одновременно активно менять и temperature, и top_p. Для обычных пользователей проще управлять только temperature, а top_p оставить около 1.0.

5. Top K

Что делает:

Ограничивает выбор модели только K наиболее вероятными следующими токенами.

Важно:

top_k не является стандартным параметром OpenAI Chat Completions API, но часто встречается в локальных inference-серверах и интерфейсах для open-source моделей, включая некоторые Ollama/LLM-настройки.

Как использовать:

  • 20-40 — более строгий и предсказуемый ответ;
  • 40-100 — больше разнообразия;
  • если параметр недоступен в интерфейсе, его можно не трогать.

Практический совет:

Для AIaaS через OpenAI-compatible API чаще достаточно temperature и top_p. Top K стоит объяснять как опциональный параметр для локальных моделей или отдельных backend.

6. Max tokens / Max completion tokens

Что делает:

Ограничивает максимальную длину ответа модели.

Как использовать:

  • 300-500 — короткий ответ, письмо, резюме;
  • 1000-2000 — подробный ответ или инструкция;
  • 3000+ — длинный анализ, но зависит от модели и лимитов сервиса.

Практический совет:

Если ответ обрывается, увеличьте лимит. Если ответы слишком длинные и расходуют квоту, уменьшите лимит и попросите отвечать кратко.

7. Stop sequences

Что делает:

Задает фразы или символы, на которых модель должна остановить генерацию.

Пример:

Если указать stop sequence ###, модель остановится, когда дойдет до этого маркера.

Практический совет:

Обычным пользователям обычно не нужно менять этот параметр. Он полезен в интеграциях и шаблонах, где ответ должен завершаться строго в определенном месте.

8. Presence penalty

Что делает:

Снижает склонность модели снова возвращаться к уже упомянутым темам. Может помогать, если нужен более широкий набор идей.

Как использовать:

  • 0 — без штрафа, стандартное поведение;
  • 0.2-0.8 — модель чаще добавляет новые темы;
  • высокие значения могут сделать ответ менее сфокусированным.

Практический совет:

Для деловых и технических ответов обычно оставлять 0.

9. Frequency penalty

Что делает:

Снижает повторение одних и тех же слов и фраз.

Как использовать:

  • 0 — стандартное поведение;
  • 0.2-0.8 — меньше повторов;
  • слишком высокое значение может ухудшить стиль и точность.

Практический совет:

Если модель повторяет одну мысль несколько раз, можно немного увеличить frequency penalty.

10. Seed

Что делает:

Помогает получать более повторяемые ответы при одинаковом запросе и одинаковых настройках, если модель и backend поддерживают этот параметр.

Важно:

Даже с seed абсолютная идентичность ответа не всегда гарантируется: результат может зависеть от модели, версии backend и системных настроек.

Практический совет:

Обычным пользователям seed обычно не нужен. Он полезнее для тестирования и сравнения промптов.

11. Stream

Что делает:

Если включено, ответ отображается постепенно, по мере генерации. Если выключено, ответ появляется целиком после завершения.

Как использовать:

  • включить для обычного чата, чтобы быстрее видеть начало ответа;
  • выключить для интеграций, где нужен готовый полный ответ одним блоком.

12. System prompt / Instructions

Что делает:

Задает роль, стиль и правила поведения модели до пользовательского запроса.

Пример:

Ты помощник финансового отдела. Отвечай кратко, деловым стилем. Не выдумывай суммы и даты, если их нет в исходном тексте.

Практический совет:

Это один из самых полезных параметров для бизнеса. Лучше задать понятную инструкцию, чем пытаться исправить ответ только temperature.

13. Response format

Что делает:

Помогает зафиксировать формат ответа, например обычный текст или JSON, если backend поддерживает такой режим.

Как использовать:

  • обычный текст — для пользователей;
  • JSON — для интеграций, автоматизации, выгрузки структурированных данных.

Практический совет:

Для пользователя лучше просить формат прямо в запросе: «ответь таблицей», «дай список из 5 пунктов», «верни JSON». Для интеграций формат лучше фиксировать параметрами API.

14. Tools / Function calling

Что делает:

Позволяет модели вызывать внешние функции или инструменты, если приложение и модель это поддерживают.

Примеры:

  • поиск в базе знаний;
  • вызов CRM;
  • расчет по калькулятору;
  • создание тикета.

Практический совет:

Для простого чат-интерфейса этот параметр обычно не нужен. Он важен для интеграций и агентских сценариев.

15. Logit bias

Что делает:

Позволяет повышать или снижать вероятность отдельных токенов.

Практический совет:

Это технический параметр. Обычным пользователям его лучше не менять.

16. Model

Что делает:

Определяет, какая модель будет отвечать.

Как выбирать:

  • быстрая и недорогая модель — для черновиков, резюме, простых писем;
  • более сильная модель — для сложного анализа, технических текстов, аккуратной редакции;
  • специализированная модель — для OCR, ASR, embeddings, reranking, PII или других отдельных задач, если они доступны.

Практический совет:

Если ответ слабый, сначала попробуйте улучшить запрос и только потом менять модель.

17. Tokens

Что это:

Токены — это единицы текста, которыми модель обрабатывает запрос и ответ. Один токен примерно соответствует части слова, слову или знаку препинания. Точное соотношение зависит от языка и модели.

Почему важно:

  • токены влияют на расход квоты;
  • длинные документы потребляют больше токенов;
  • длинные ответы тоже потребляют токены;
  • у каждой модели есть ограничение контекста.

Практический совет:

Если нужно сэкономить квоту, просите отвечать кратко и не отправляйте лишний текст.

18. Context window

Что это:

Максимальный объем текста, который модель может учитывать за один запрос: пользовательский текст, история диалога, системные инструкции и ответ.

Практический совет:

Если документ большой, лучше просить анализировать его частями или использовать RAG/поиск по документам, если такой сценарий настроен.

19. Рекомендуемые профили настроек

Строгий деловой режим

temperature: 0.2
top_p: 1.0
presence_penalty: 0
frequency_penalty: 0

Подходит для писем, резюме, регламентов, ответов клиентам.

Креативный режим

temperature: 0.8
top_p: 1.0
presence_penalty: 0.3
frequency_penalty: 0.2

Подходит для идей, вариантов названий, маркетинговых формулировок.

Извлечение данных

temperature: 0.0
top_p: 1.0
presence_penalty: 0
frequency_penalty: 0

Подходит для задач вроде «найди в тексте дату, сумму, контрагента и срок оплаты».

20. Что лучше не менять без необходимости

Обычному пользователю обычно не нужно менять:

  • logit_bias;
  • tools / function calling;
  • seed;
  • stop sequences;
  • top_k, если он не используется конкретным backend;
  • penalties, если нет явных повторов.

21. Источники и ограничения

Локальная база ITGLOBAL.COM:

  • AIaaS описан как единый API gateway к разным классам моделей.
  • Потребление AIaaS рассчитывается по входным и выходным токенам с учетом коэффициентов моделей.
  • В AIaaS доступны сценарии с квотами, RBAC, аналитикой, логированием и PII-функциями.

Внешние источники:

Ограничения:

  • набор доступных параметров зависит от конкретной модели, endpoint и настроек AIaaS;
  • OpenAI-compatible не означает, что каждый backend поддерживает все параметры OpenAI API;
  • top_k относится к распространенным параметрам локальных/open-source backend, но не является базовым стандартным параметром OpenAI Chat Completions API.