Saltar al contenido principal

Ctrl+K

Guía de inicio
model
GUÍA DEL USUARIO

GitHub
Telegram
Discord
Twitter

Guía de inicio
model
GUÍA DEL USUARIO
Ejemplo
Guía de API
Guía de desarrollo
Official Site

GitHub
Telegram
Discord
Twitter

Navegación del sección

Motor de inferencia
API de cliente
Sistema OAuth2 (experimental)
Guía de carga de modelos
Metrics
Inferencia distribuida
Procesamiento por lotes continuo
Xavier: Compartir KV Cache entre múltiples réplicas de VLLM

GUÍA DEL USUARIO

GUÍA DEL USUARIO#

Motor de inferencia
- llama.cpp
- transformers
- vLLM
- SGLang
- MLX
API de cliente
- LLM
- Embedding
- imagen
- Audio
- Rerank
Sistema OAuth2 (experimental)
Guía de carga de modelos
Metrics
- Supervisor Metrics
- Worker Metrics
Inferencia distribuida
- Motores compatibles
- Usar
Procesamiento por lotes continuo
Xavier: Compartir KV Cache entre múltiples réplicas de VLLM
- Usar
- restricción

anterior

Cálculo del uso de memoria del modelo

siguiente

Motor de inferencia

Mostrar el código

© Copyright 2025, Xorbits Inc..

Creado usando Sphinx 8.1.3.

Construido con el Tema PyData Sphinx 0.19.0.