Yandex.Cloud
Общая информация
Модели провайдера
| Модель | ID | Цена Input | Цена Output | Контекст | Latency (сек) | Throughput (т/сек) | Квантизация | Function Calling |
|---|---|---|---|---|---|---|---|---|
YandexGPT 5 Lite
|
yandex/gpt5-lite | 200 ₽ | 200 ₽ | 32000 | 0.44 | 95.52 | - | |
DeepSeek-R1-Distill-Llama-70B
|
deepseek/deepseek-r1-distill-llama-70b | 600 ₽ | 600 ₽ | 8192 | 714.2 | 1.24 | BF16 | |
OpenAI: gpt-oss-20b
|
openai/gpt-oss-20b | 100 ₽ | 100 ₽ | 128000 | 0.74 | 131.02 | - | |
OpenAI: gpt-oss-120b
|
openai/gpt-oss-120b | 300 ₽ | 300 ₽ | 128000 | 0.67 | 122.47 | - | |
YandexGPT 5 Pro
|
yandex/gpt5-pro | 1200 ₽ | 1200 ₽ | 32000 | 0.41 | 46.25 | - | |
|
|
meta-llama/llama-3.3-70b-instruct | 1200 ₽ | 1200 ₽ | 8192 | 0.48 | 12.38 | - |
Цена vs Качество
Качество vs Скорость (Throughput)
Качество vs Latency
Ключевые определения
Контекстное окно: максимальное общее количество входных и выходных токенов.
Throughput (скорость вывода): количество токенов в секунду, получаемых во время генерации токенов моделью (т.е. после получения первого фрагмента от API для моделей, поддерживающих потоковую передачу).
Latency (задержка, время до первого токена): время до получения первого токена в секундах после отправки запроса к API. Для моделей, использующих общие токены для рассуждений, это будет первый токен рассуждения. Для моделей, не поддерживающих потоковую передачу, это время до получения полного ответа.
Цена аутпута (вывода): цена за токен, сгенерированный моделью (полученный от API), выраженная в соответствующей валюте за миллион токенов.
Цена инпута (ввода): цена за токен, включенный в запрос/сообщение, отправленное к API, выраженная в соответствующей валюте за миллион токенов.