GUÍA DEL USUARIO# Motor de inferencia llama.cpp transformers vLLM SGLang MLX API de cliente LLM Embedding imagen Audio Rerank Sistema OAuth2 (experimental) Permisos Inicio Usar Código de estado HTTP atención Guía de carga de modelos copia Estrategia de asignación mixta Establecer la variable de entorno configurar el espacio virtual del modelo Procesamiento por lotes / Procesamiento continuo por lotes Modo de pensamiento Metrics Supervisor Metrics Worker Metrics Inferencia distribuida Motores compatibles Usar Procesamiento por lotes continuo Modo de uso Cancelar solicitud Notas importantes Xavier: Compartir KV Cache entre múltiples réplicas de VLLM Usar restricción