VSELLM
Модели провайдера
| Модель | ID | Цена Input | Цена Output | Контекст | Latency (сек) | Throughput (т/сек) | Квантизация | Function Calling |
|---|---|---|---|---|---|---|---|---|
YandexGPT 5 Lite
|
yandex/gpt5-lite | 200 ₽ | 200 ₽ | 32000 | 1.18 | 96.87 | - | |
Anthropic: Claude Sonnet 4
|
anthropic/claude-sonnet-4 | 230 ₽ | 1148 ₽ | 1000000 | 2.75 | 57.69 | - | |
OpenAI: GPT-5
|
openai/gpt-5 | 96 ₽ | 765 ₽ | 400000 | 8.7 | 35.51 | - | |
|
|
google/gemini-2.5-flash | 23 ₽ | 191 ₽ | 1048576 | 0.5 | 89.37 | - | |
OpenAI: GPT-4.1
|
openai/gpt-4.1 | 153 ₽ | 612 ₽ | 1047576 | 0.88 | 66.2 | - | |
xAI: Grok Code Fast 1 (Non-reasoning)
|
x-ai/grok-code-fast-1-non-reasoning | 15 ₽ | 115 ₽ | 256000 | 0.0 | 0.0 | - | |
Z.AI: GLM 4.7
|
z-ai/glm-4.7 | 61 ₽ | 230 ₽ | 202752 | 14.47 | 93.2 | - | |
Anthropic: Claude Sonnet 4.5
|
anthropic/claude-sonnet-4.5 | 230 ₽ | 1148 ₽ | 1000000 | 2.38 | 58.96 | - | |
OpenAI: gpt-oss-20b
|
openai/gpt-oss-20b | 6 ₽ | 23 ₽ | 131072 | 0.4 | 205.4 | FP4/FP8 | |
DeepSeek: DeepSeek V3 0324
|
deepseek/deepseek-chat-v3-0324 | 37 ₽ | 129 ₽ | 163840 | 0.53 | 24.27 | - | |
xAI: Grok Code Fast 1
|
x-ai/grok-code-fast-1 | 31 ₽ | 230 ₽ | 256000 | 1.32 | 82.2 | - | |
OpenAI: gpt-oss-120b
|
openai/gpt-oss-120b | 6 ₽ | 31 ₽ | 131072 | 0.45 | 280.7 | FP4/FP8/BF16 | |
|
|
meta-llama/llama-3.3-70b-instruct | 17 ₽ | 49 ₽ | 131072 | 0.47 | 74.7 | FP8/FP16/BF16 | |
Qwen: Qwen3 235B A22B
|
qwen/qwen3-235b-a22b | 28 ₽ | 83 ₽ | 40960 | 1.13 | 56.81 | FP8/BF16 | |
T-pro-it-2.0
|
t-tech/T-pro-it-2.0 | 85 ₽ | 170 ₽ | 32768 | 1.56 | 73.75 | BF16 | |
|
|
GigaChat/GigaChat-2-Max | 1950 ₽ | 1950 ₽ | 131072 | 10.86 | 11.7 | - | |
OpenAI: GPT-4o-mini
|
openai/gpt-4o-mini | 11 ₽ | 46 ₽ | 128000 | 0.54 | 59.7 | - | |
|
|
google/gemini-2.5-pro | 96 ₽ | 765 ₽ | 1048576 | 2.62 | 85.1 | - | |
OpenAI: ChatGPT-4o
|
openai/chatgpt-4o-latest | 382 ₽ | 1148 ₽ | 128000 | 0.55 | 97.31 | - | |
YandexGPT 5 Pro
|
yandex/gpt5-pro | 1200 ₽ | 1200 ₽ | 32000 | 1.25 | 45.02 | - | |
OpenAI: GPT-4.1 Nano
|
openai/gpt-4.1-nano | 8 ₽ | 31 ₽ | 1047576 | 0.8 | 67.31 | - | |
OpenAI: GPT-4.1 Mini
|
openai/gpt-4.1-mini | 31 ₽ | 122 ₽ | 1047576 | 0.84 | 56.47 | - | |
Z.AI: GLM 4.5 Air
|
z-ai/glm-4.5-air | 16 ₽ | 104 ₽ | 131072 | 3.78 | 67.98 | - | |
OpenAI: GPT-5.1 Chat
|
openai/gpt-5.1-chat | 96 ₽ | 765 ₽ | 128000 | 1.36 | 141.1 | - | |
OpenAI: GPT-5 Chat
|
openai/gpt-5-chat | 96 ₽ | 765 ₽ | 128000 | 0.56 | 59.23 | - | |
|
|
google/gemini-3-pro-preview | 153 ₽ | 918 ₽ | 1048576 | 4.03 | 60.77 | - | |
DeepSeek-R1-Distill-Llama-70B
|
deepseek/deepseek-r1-distill-llama-70b | 5 ₽ | 20 ₽ | 131072 | 0.47 | 114.8 | FP8/BF16 | |
MoonshotAI: Kimi K2 0905
|
moonshotai/kimi-k2-0905 | 60 ₽ | 291 ₽ | 262144 | 5.38 | 95.08 | - | |
Anthropic: Claude Opus 4.5
|
anthropic/claude-opus-4.5 | 382 ₽ | 1912 ₽ | 200000 | 2.96 | 59.58 | - | |
Anthropic: Claude Opus 4.1
|
anthropic/claude-opus-4.1 | 1148 ₽ | 5738 ₽ | 200000 | 1.88 | 30.66 | - | |
Qwen: Qwen3 VL 235B A22B Thinking
|
qwen/qwen3-vl-235b-a22b-thinking | 46 ₽ | 184 ₽ | 262144 | 28.84 | 89.69 | - | |
OpenAI: GPT-5 Nano
|
openai/gpt-5-nano | 4 ₽ | 31 ₽ | 400000 | 2.4 | 50.21 | - | |
OpenAI: GPT-5 Mini
|
openai/gpt-5-mini | 19 ₽ | 153 ₽ | 400000 | 6.82 | 48.84 | - | |
YandexGPT 5.1 Pro
|
yandex/gpt5.1-pro | 400 ₽ | 400 ₽ | 32000 | 11.35 | 92.2 | - | |
Anthropic: Claude Haiku 4.5
|
anthropic/claude-haiku-4.5 | 76 ₽ | 382 ₽ | 200000 | 1.06 | 94.93 | - | |
Qwen: Qwen3 VL 235B A22B Instruct
|
qwen/qwen3-vl-235b-a22b-instruct | 31 ₽ | 184 ₽ | 262144 | 1.21 | 45.32 | - | |
Z.AI: GLM 4.6
|
z-ai/glm-4.6 | 61 ₽ | 268 ₽ | 202752 | 5.66 | 48.87 | - | |
MoonshotAI: Kimi K2 Thinking
|
moonshotai/kimi-k2-thinking | 34 ₽ | 180 ₽ | 262144 | 9.93 | 77.77 | - | |
Qwen: Qwen3 VL 30B A3B Instruct
|
qwen/qwen3-vl-30b-a3b-instruct | 21 ₽ | 153 ₽ | 131072 | 1.26 | 77.36 | - | |
Qwen: Qwen3 VL 30B A3B Thinking
|
qwen/qwen3-vl-30b-a3b-thinking | 24 ₽ | 122 ₽ | 131072 | 7.54 | 260.88 | - | |
Qwen: Qwen3 VL 8B Thinking
|
qwen/qwen3-vl-8b-thinking | 28 ₽ | 321 ₽ | 256000 | 0.95 | 80.34 | - | |
Qwen: Qwen3 VL 8B Instruct
|
qwen/qwen3-vl-8b-instruct | 10 ₽ | 61 ₽ | 131072 | 1.38 | 78.83 | - | |
OpenAI: GPT-5.1
|
openai/gpt-5.1 | 96 ₽ | 765 ₽ | 400000 | 5.2 | 44.48 | - | |
OpenAI: GPT-5.2 Chat
|
openai/gpt-5.2-chat | 134 ₽ | 1071 ₽ | 128000 | 1.98 | 91.13 | - | |
OpenAI: GPT-5.2
|
openai/gpt-5.2 | 134 ₽ | 1071 ₽ | 400000 | 5.01 | 40.18 | - | |
DeepSeek: DeepSeek V3.2
|
deepseek/deepseek-v3.2 | 18 ₽ | 29 ₽ | 163840 | 1.55 | 59.81 | - | |
DeepSeek: DeepSeek V3.2 Speciale
|
deepseek/deepseek-v3.2-speciale | 21 ₽ | 31 ₽ | 163840 | 0.78 | 41.67 | - |
Цена vs Качество
Качество vs Скорость (Throughput)
Качество vs Latency
Ключевые определения
Контекстное окно: максимальное общее количество входных и выходных токенов.
Throughput (скорость вывода): количество токенов в секунду, получаемых во время генерации токенов моделью (т.е. после получения первого фрагмента от API для моделей, поддерживающих потоковую передачу).
Latency (задержка, время до первого токена): время до получения первого токена в секундах после отправки запроса к API. Для моделей, использующих общие токены для рассуждений, это будет первый токен рассуждения. Для моделей, не поддерживающих потоковую передачу, это время до получения полного ответа.
Цена аутпута (вывода): цена за токен, сгенерированный моделью (полученный от API), выраженная в соответствующей валюте за миллион токенов.
Цена инпута (ввода): цена за токен, включенный в запрос/сообщение, отправленное к API, выраженная в соответствующей валюте за миллион токенов.
VertexAI