Yandex.Cloud

Общая информация

Лучший LLM Arena Score:

Лучший Latency:

Лучший Throughput:

Лучшее Цена/Качество:

YandexGPT 5 Pro

gpt-oss-20b

YandexGPT 5 Pro

Модели провайдера

Быстрые фильтры:

Модель	ID	Цена Input	Цена Output	Контекст	Latency (сек)	Throughput (т/сек)	Квантизация
YandexGPT 5 Lite	yandex/gpt5-lite	200 ₽	200 ₽	32000	0.44	95.52	-
DeepSeek-R1-Distill-Llama-70B	deepseek/deepseek-r1-distill-llama-70b	600 ₽	600 ₽	8192	714.2	1.24	BF16
OpenAI: gpt-oss-20b	openai/gpt-oss-20b	100 ₽	100 ₽	128000	0.74	131.02	-
OpenAI: gpt-oss-120b	openai/gpt-oss-120b	300 ₽	300 ₽	128000	0.67	122.47	-
YandexGPT 5 Pro	yandex/gpt5-pro	1200 ₽	1200 ₽	32000	0.41	46.25	-
Meta: Llama 3.3 70B Instruct	meta-llama/llama-3.3-70b-instruct	1200 ₽	1200 ₽	8192	0.48	12.38	-

Организация	Модель / Алиас	Цена Input	Цена Output

Цена vs Качество

Лучшее соотношение цена/качество

Качество vs Скорость (Throughput)

Лучшее соотношение качество/скорость

Качество vs Latency

Лучшее соотношение качество/Latency

Ключевые определения

Контекстное окно: максимальное общее количество входных и выходных токенов.

Throughput (скорость вывода): количество токенов в секунду, получаемых во время генерации токенов моделью (т.е. после получения первого фрагмента от API для моделей, поддерживающих потоковую передачу).

Latency (задержка, время до первого токена): время до получения первого токена в секундах после отправки запроса к API. Для моделей, использующих общие токены для рассуждений, это будет первый токен рассуждения. Для моделей, не поддерживающих потоковую передачу, это время до получения полного ответа.

Цена аутпута (вывода): цена за токен, сгенерированный моделью (полученный от API), выраженная в соответствующей валюте за миллион токенов.

Цена инпута (ввода): цена за токен, включенный в запрос/сообщение, отправленное к API, выраженная в соответствующей валюте за миллион токенов.

← Назад к моделям