Saltar al contenido principal
Ctrl+K
Xinference Xinference
  • Guía de inicio
  • model
  • GUÍA DEL USUARIO
    • Ejemplo
    • Guía de API
    • Guía de desarrollo
    • Official Site
  • GitHub
  • Telegram
  • Discord
  • Twitter
  • Guía de inicio
  • model
  • GUÍA DEL USUARIO
  • Ejemplo
  • Guía de API
  • Guía de desarrollo
  • Official Site
  • GitHub
  • Telegram
  • Discord
  • Twitter

Navegación del sección

  • Motor de inferencia
  • API de cliente
  • Sistema OAuth2 (experimental)
  • Guía de carga de modelos
  • Metrics
  • Inferencia distribuida
  • Procesamiento por lotes continuo
  • Xavier: Compartir KV Cache entre múltiples réplicas de VLLM
  • GUÍA DEL USUARIO

GUÍA DEL USUARIO#

  • Motor de inferencia
    • llama.cpp
    • transformers
    • vLLM
    • SGLang
    • MLX
  • API de cliente
    • LLM
    • Embedding
    • imagen
    • Audio
    • Rerank
  • Sistema OAuth2 (experimental)
    • Permisos
    • Inicio
    • Usar
    • Código de estado HTTP
    • atención
  • Guía de carga de modelos
    • copia
    • Estrategia de asignación mixta
    • Establecer la variable de entorno
    • configurar el espacio virtual del modelo
    • Procesamiento por lotes / Procesamiento continuo por lotes
    • Modo de pensamiento
  • Metrics
    • Supervisor Metrics
    • Worker Metrics
  • Inferencia distribuida
    • Motores compatibles
    • Usar
  • Procesamiento por lotes continuo
    • Modo de uso
    • Cancelar solicitud
    • Notas importantes
  • Xavier: Compartir KV Cache entre múltiples réplicas de VLLM
    • Usar
    • restricción

anterior

Cálculo del uso de memoria del modelo

siguiente

Motor de inferencia

Mostrar el código

© Copyright 2025, Xorbits Inc..

Creado usando Sphinx 8.1.3.

Construido con el Tema PyData Sphinx 0.19.0.