VSELLM
Общая информация
Модели провайдера
| Модель | ID | Цена Input | Цена Output | Контекст | Latency (сек) | Throughput (т/сек) | Квантизация | Function Calling |
|---|---|---|---|---|---|---|---|---|
YandexGPT 5 Lite
|
yandex/gpt5-lite | 200 ₽ | 200 ₽ | 32000 | 1.18 | 96.87 | - | |
Anthropic: Claude Sonnet 4
|
anthropic/claude-sonnet-4 | 230 ₽ | 1148 ₽ | 1000000 | 2.75 | 57.69 | - | |
OpenAI: GPT-5
|
openai/gpt-5 | 96 ₽ | 765 ₽ | 400000 | 8.7 | 35.51 | - | |
OpenAI: GPT-4.1
|
openai/gpt-4.1 | 153 ₽ | 612 ₽ | 1047576 | 0.88 | 66.2 | - | |
Anthropic: Claude Sonnet 4.5
|
anthropic/claude-sonnet-4.5 | 230 ₽ | 1148 ₽ | 1000000 | 2.38 | 58.96 | - | |
DeepSeek: DeepSeek V3 0324
|
deepseek/deepseek-chat-v3-0324 | 37 ₽ | 129 ₽ | 163840 | 0.53 | 24.27 | - | |
OpenAI: gpt-oss-120b
|
openai/gpt-oss-120b | 8 ₽ | 38 ₽ | 131072 | 0.45 | 280.7 | FP4/FP8/BF16 | |
OpenAI: gpt-oss-20b
|
openai/gpt-oss-20b | 6 ₽ | 23 ₽ | 131072 | 0.4 | 205.4 | FP4/FP8 | |
T-pro-it-2.0
|
t-tech/T-pro-it-2.0 | 85 ₽ | 170 ₽ | 32768 | 1.56 | 73.75 | BF16 | |
|
|
google/gemini-2.5-flash | 23 ₽ | 191 ₽ | 1048576 | 0.5 | 89.37 | - | |
|
|
GigaChat/GigaChat-2-Max | 1950 ₽ | 1950 ₽ | 131072 | 10.86 | 11.7 | - | |
Qwen: Qwen3 235B A22B
|
qwen/qwen3-235b-a22b | 28 ₽ | 83 ₽ | 40960 | 1.13 | 56.81 | FP8/BF16 | |
OpenAI: GPT-4o-mini
|
openai/gpt-4o-mini | 11 ₽ | 46 ₽ | 128000 | 0.54 | 59.7 | - | |
|
|
google/gemini-2.5-pro | 96 ₽ | 765 ₽ | 1048576 | 2.62 | 85.1 | - | |
xAI: Grok Code Fast 1
|
x-ai/grok-code-fast-1 | 31 ₽ | 230 ₽ | 256000 | 1.32 | 82.2 | - | |
OpenAI: ChatGPT-4o
|
openai/chatgpt-4o-latest | 382 ₽ | 1148 ₽ | 128000 | 0.55 | 97.31 | - | |
YandexGPT 5 Pro
|
yandex/gpt5-pro | 1200 ₽ | 1200 ₽ | 32000 | 1.25 | 45.02 | - | |
OpenAI: GPT-4.1 Nano
|
openai/gpt-4.1-nano | 8 ₽ | 31 ₽ | 1047576 | 0.8 | 67.31 | - | |
OpenAI: GPT-4.1 Mini
|
openai/gpt-4.1-mini | 31 ₽ | 122 ₽ | 1047576 | 0.84 | 56.47 | - | |
|
|
meta-llama/llama-3.3-70b-instruct | 20 ₽ | 60 ₽ | 131072 | 0.47 | 74.7 | FP8/FP16/BF16 | |
Imagen 4.0 Fast Generate 001
|
vertex_ai/imagen-4.0-fast-generate-001 | - ₽ | 2 ₽ | - | 0.0 | 0.0 | - | |
Imagen 3.0 Generate 002
|
vertex_ai/imagen-3.0-generate-002 | - ₽ | 3 ₽ | - | 0.0 | 0.0 | - | |
Imagen 4.0 Generate 001
|
vertex_ai/imagen-4.0-generate-001 | - ₽ | 3 ₽ | - | 0.0 | 0.0 | - | |
Imagen 4.0 Ultra Generate 001
|
vertex_ai/imagen-4.0-ultra-generate-001 | - ₽ | 5 ₽ | - | 0.0 | 0.0 | - | |
|
|
google/gemini-2.5-flash-image | 23 ₽ | 191 ₽ | 32768 | 6.7 | 1037.0 | - | |
OpenAI: GPT-5 Chat
|
openai/gpt-5-chat | 96 ₽ | 765 ₽ | 128000 | 0.56 | 59.23 | - | |
OpenAI: Sora 2
|
openai/sora-2 | - ₽ | - ₽ | - | 0.0 | 0.0 | - | |
OpenAI: GPT-5.1 Chat
|
openai/gpt-5.1-chat | 96 ₽ | 765 ₽ | 128000 | 1.36 | 141.1 | - | |
OpenAI: GPT Image 1 Mini
|
openai/gpt-image-1-mini | 191 ₽ | 612 ₽ | - | 0.0 | 0.0 | - | |
OpenAI: GPT Image 1
|
openai/gpt-image-1 | 765 ₽ | 3060 ₽ | - | 0.0 | 0.0 | - | |
Imagen 3.0 Generate 001
|
vertex_ai/imagen-3.0-generate-001 | - ₽ | 3 ₽ | - | 0.0 | 0.0 | - | |
Imagen 3.0 Fast Generate 001
|
vertex_ai/imagen-3.0-fast-generate-001 | - ₽ | - ₽ | - | 0.0 | 0.0 | - | |
OpenAI: Text Embedding 3 Small
|
openai/text-embedding-3-small | 3 ₽ | - ₽ | 8192 | 0.78 | 0.0 | - | |
OpenAI: Text Embedding 3 Large
|
openai/text-embedding-3-large | 20 ₽ | - ₽ | 8192 | 8.71 | 0.0 | - | |
|
|
google/gemini-embedding-001 | 23 ₽ | - ₽ | 20000 | 0.0 | 0.0 | - | |
OpenAI: GPT-5 Nano
|
openai/gpt-5-nano | 4 ₽ | 31 ₽ | 400000 | 2.4 | 50.21 | - | |
DeepSeek-R1-Distill-Llama-70B
|
deepseek/deepseek-r1-distill-llama-70b | 5 ₽ | 20 ₽ | 131072 | 0.47 | 114.8 | FP8/BF16 | |
OpenAI: GPT-5 Mini
|
openai/gpt-5-mini | 19 ₽ | 153 ₽ | 400000 | 6.82 | 48.84 | - | |
OpenAI: GPT-5.1
|
openai/gpt-5.1 | 96 ₽ | 765 ₽ | 400000 | 5.2 | 44.48 | - |
Цена vs Качество
Качество vs Скорость (Throughput)
Качество vs Latency
Ключевые определения
Контекстное окно: максимальное общее количество входных и выходных токенов.
Throughput (скорость вывода): количество токенов в секунду, получаемых во время генерации токенов моделью (т.е. после получения первого фрагмента от API для моделей, поддерживающих потоковую передачу).
Latency (задержка, время до первого токена): время до получения первого токена в секундах после отправки запроса к API. Для моделей, использующих общие токены для рассуждений, это будет первый токен рассуждения. Для моделей, не поддерживающих потоковую передачу, это время до получения полного ответа.
Цена аутпута (вывода): цена за токен, сгенерированный моделью (полученный от API), выраженная в соответствующей валюте за миллион токенов.
Цена инпута (ввода): цена за токен, включенный в запрос/сообщение, отправленное к API, выраженная в соответствующей валюте за миллион токенов.