Xavier: Compartir KV Cache entre múltiples réplicas de VLLM#

Para escenarios como consultas de documentos largos y diálogos de múltiples rondas, la computación en la etapa de prellenado de inferencia puede ser especialmente intensiva, lo que afecta el rendimiento general y la latencia de inferencia individual. Xinference optimiza el motor vllm mediante la introducción del framework Xavier, permitiendo compartir la caché KV entre múltiples instancias de vllm. Esto posibilita que la caché KV calculada por otras réplicas pueda reutilizarse directamente, evitando así cálculos redundantes.

Usar#

Active el parámetro enable_xavier=True al iniciar el modelo vllm.

restricción#

Xavier requiere que la versión de vllm no sea inferior a 0.7.0. Actualmente no se admite una versión de vllm superior a 0.11.0.
Debido a que la comunicación subyacente no reconoce la dirección 0.0.0.0, al iniciar xinference es necesario configurar una dirección IP real, por ejemplo: xinference-local -H 192.168.xx.xx.
Xavier solo es compatible con tarjetas gráficas Nvidia.