VSELLM

Модели провайдера

Быстрые фильтры:

Фильтры:

Модель	ID	Цена Input	Цена Output	Контекст	Latency (сек)	Throughput (т/сек)	Квантизация
YandexGPT 5 Lite	yandex/gpt5-lite	200 ₽	200 ₽	32000	1.18	96.87	-
Anthropic: Claude Sonnet 4	anthropic/claude-sonnet-4	230 ₽	1148 ₽	1000000	2.75	57.69	-
OpenAI: GPT-5	openai/gpt-5	96 ₽	765 ₽	400000	8.7	35.51	-
Google: Gemini 2.5 Flash	google/gemini-2.5-flash	23 ₽	191 ₽	1048576	0.5	89.37	-
OpenAI: GPT-4.1	openai/gpt-4.1	153 ₽	612 ₽	1047576	0.88	66.2	-
xAI: Grok Code Fast 1 (Non-reasoning)	x-ai/grok-code-fast-1-non-reasoning	15 ₽	115 ₽	256000	0.0	0.0	-
Z.AI: GLM 4.7	z-ai/glm-4.7	61 ₽	230 ₽	202752	14.47	93.2	-
Anthropic: Claude Sonnet 4.5	anthropic/claude-sonnet-4.5	230 ₽	1148 ₽	1000000	2.38	58.96	-
OpenAI: gpt-oss-20b	openai/gpt-oss-20b	6 ₽	23 ₽	131072	0.4	205.4	FP4/FP8
DeepSeek: DeepSeek V3 0324	deepseek/deepseek-chat-v3-0324	37 ₽	129 ₽	163840	0.53	24.27	-
xAI: Grok Code Fast 1	x-ai/grok-code-fast-1	31 ₽	230 ₽	256000	1.32	82.2	-
OpenAI: gpt-oss-120b	openai/gpt-oss-120b	6 ₽	31 ₽	131072	0.45	280.7	FP4/FP8/BF16
Meta: Llama 3.3 70B Instruct	meta-llama/llama-3.3-70b-instruct	17 ₽	49 ₽	131072	0.47	74.7	FP8/FP16/BF16
Qwen: Qwen3 235B A22B	qwen/qwen3-235b-a22b	28 ₽	83 ₽	40960	1.13	56.81	FP8/BF16
T-pro-it-2.0	t-tech/T-pro-it-2.0	85 ₽	170 ₽	32768	1.56	73.75	BF16
GigaChat-2-Max	GigaChat/GigaChat-2-Max	1950 ₽	1950 ₽	131072	10.86	11.7	-
OpenAI: GPT-4o-mini	openai/gpt-4o-mini	11 ₽	46 ₽	128000	0.54	59.7	-
Google: Gemini 2.5 Pro	google/gemini-2.5-pro	96 ₽	765 ₽	1048576	2.62	85.1	-
OpenAI: ChatGPT-4o	openai/chatgpt-4o-latest	382 ₽	1148 ₽	128000	0.55	97.31	-
YandexGPT 5 Pro	yandex/gpt5-pro	1200 ₽	1200 ₽	32000	1.25	45.02	-
OpenAI: GPT-4.1 Nano	openai/gpt-4.1-nano	8 ₽	31 ₽	1047576	0.8	67.31	-
OpenAI: GPT-4.1 Mini	openai/gpt-4.1-mini	31 ₽	122 ₽	1047576	0.84	56.47	-
Z.AI: GLM 4.5 Air	z-ai/glm-4.5-air	16 ₽	104 ₽	131072	3.78	67.98	-
OpenAI: GPT-5.1 Chat	openai/gpt-5.1-chat	96 ₽	765 ₽	128000	1.36	141.1	-
OpenAI: GPT-5 Chat	openai/gpt-5-chat	96 ₽	765 ₽	128000	0.56	59.23	-
Google: Gemini 3 Pro Preview	google/gemini-3-pro-preview	153 ₽	918 ₽	1048576	4.03	60.77	-
DeepSeek-R1-Distill-Llama-70B	deepseek/deepseek-r1-distill-llama-70b	5 ₽	20 ₽	131072	0.47	114.8	FP8/BF16
MoonshotAI: Kimi K2 0905	moonshotai/kimi-k2-0905	60 ₽	291 ₽	262144	5.38	95.08	-
Anthropic: Claude Opus 4.5	anthropic/claude-opus-4.5	382 ₽	1912 ₽	200000	2.96	59.58	-
Anthropic: Claude Opus 4.1	anthropic/claude-opus-4.1	1148 ₽	5738 ₽	200000	1.88	30.66	-
Qwen: Qwen3 VL 235B A22B Thinking	qwen/qwen3-vl-235b-a22b-thinking	46 ₽	184 ₽	262144	28.84	89.69	-
OpenAI: GPT-5 Nano	openai/gpt-5-nano	4 ₽	31 ₽	400000	2.4	50.21	-
OpenAI: GPT-5 Mini	openai/gpt-5-mini	19 ₽	153 ₽	400000	6.82	48.84	-
YandexGPT 5.1 Pro	yandex/gpt5.1-pro	400 ₽	400 ₽	32000	11.35	92.2	-
Anthropic: Claude Haiku 4.5	anthropic/claude-haiku-4.5	76 ₽	382 ₽	200000	1.06	94.93	-
Qwen: Qwen3 VL 235B A22B Instruct	qwen/qwen3-vl-235b-a22b-instruct	31 ₽	184 ₽	262144	1.21	45.32	-
Z.AI: GLM 4.6	z-ai/glm-4.6	61 ₽	268 ₽	202752	5.66	48.87	-
MoonshotAI: Kimi K2 Thinking	moonshotai/kimi-k2-thinking	34 ₽	180 ₽	262144	9.93	77.77	-
Qwen: Qwen3 VL 30B A3B Instruct	qwen/qwen3-vl-30b-a3b-instruct	21 ₽	153 ₽	131072	1.26	77.36	-
Qwen: Qwen3 VL 30B A3B Thinking	qwen/qwen3-vl-30b-a3b-thinking	24 ₽	122 ₽	131072	7.54	260.88	-
Qwen: Qwen3 VL 8B Thinking	qwen/qwen3-vl-8b-thinking	28 ₽	321 ₽	256000	0.95	80.34	-
Qwen: Qwen3 VL 8B Instruct	qwen/qwen3-vl-8b-instruct	10 ₽	61 ₽	131072	1.38	78.83	-
OpenAI: GPT-5.1	openai/gpt-5.1	96 ₽	765 ₽	400000	5.2	44.48	-
OpenAI: GPT-5.2 Chat	openai/gpt-5.2-chat	134 ₽	1071 ₽	128000	1.98	91.13	-
OpenAI: GPT-5.2	openai/gpt-5.2	134 ₽	1071 ₽	400000	5.01	40.18	-
DeepSeek: DeepSeek V3.2	deepseek/deepseek-v3.2	18 ₽	29 ₽	163840	1.55	59.81	-
DeepSeek: DeepSeek V3.2 Speciale	deepseek/deepseek-v3.2-speciale	21 ₽	31 ₽	163840	0.78	41.67	-

Организация	Модель / Алиас	Цена Input	Цена Output
VertexAI	vertex_ai/imagen-4.0-fast-generate-001	- ₽	2 ₽
VertexAI	vertex_ai/imagen-3.0-generate-002	- ₽	3 ₽
VertexAI	vertex_ai/imagen-4.0-generate-001	- ₽	3 ₽
VertexAI	vertex_ai/imagen-4.0-ultra-generate-001	- ₽	5 ₽
Google	google/gemini-2.5-flash-image	23 ₽	191 ₽
Google	google/gemini-3-pro-image-preview	153 ₽	918 ₽
OpenAI	openai/gpt-image-1	765 ₽	3060 ₽
VertexAI	vertex_ai/imagen-3.0-generate-001	- ₽	3 ₽
VertexAI	vertex_ai/imagen-3.0-fast-generate-001	- ₽	- ₽
OpenAI	openai/text-embedding-3-small	3 ₽	- ₽
OpenAI	openai/text-embedding-3-large	20 ₽	- ₽
Google	google/gemini-embedding-001	23 ₽	- ₽
OpenAI	openai/whisper-1	1 ₽/мин	- ₽/мин

Цена vs Качество

Лучшее соотношение цена/качество

Качество vs Скорость (Throughput)

Лучшее соотношение качество/скорость

Качество vs Latency

Лучшее соотношение качество/Latency

Ключевые определения

Контекстное окно: максимальное общее количество входных и выходных токенов.

Throughput (скорость вывода): количество токенов в секунду, получаемых во время генерации токенов моделью (т.е. после получения первого фрагмента от API для моделей, поддерживающих потоковую передачу).

Latency (задержка, время до первого токена): время до получения первого токена в секундах после отправки запроса к API. Для моделей, использующих общие токены для рассуждений, это будет первый токен рассуждения. Для моделей, не поддерживающих потоковую передачу, это время до получения полного ответа.

Цена аутпута (вывода): цена за токен, сгенерированный моделью (полученный от API), выраженная в соответствующей валюте за миллион токенов.

Цена инпута (ввода): цена за токен, включенный в запрос/сообщение, отправленное к API, выраженная в соответствующей валюте за миллион токенов.

← Назад к моделям