Guía de carga de modelos#

Este documento tiene como objetivo proporcionar una descripción funcional de la carga de modelos.

copia#

La réplica se utiliza para especificar el número de instancias que se cargarán del modelo. Por ejemplo, si tienes dos GPU y cada una puede albergar una réplica del modelo, puedes establecer el número de réplicas en 2. De esta manera, dos instancias idénticas del modelo se distribuirán en estas dos GPU. Xinference equilibrará automáticamente la carga, asegurando que las solicitudes se distribuyan uniformemente entre las múltiples tarjetas. El usuario seguirá viendo un solo modelo, lo que mejora significativamente la utilización general de los recursos.

Despliegue de múltiples instancias en versiones anteriores:

Cuando disponga de múltiples tarjetas GPU, cada una puede albergar una instancia del modelo, por lo que puede establecer el número de instancias igual al número de GPU. Por ejemplo:

2 GPUs, 2 instancias: cada GPU ejecuta una instancia del modelo
4 GPUs, 4 instancias: cada GPU ejecuta una instancia del modelo.

Added in version v1.15.0.

Introducir una nueva variable de entorno:

XINFERENCE_ALLOW_MULTI_REPLICA_PER_GPU

Controla si se habilita la función de múltiples copias en una sola GPU, valor predeterminado: 1

Nueva función: despliegue de réplicas inteligentes

Réplica única con múltiples GPU

Nuevo soporte: incluso con solo una GPU, se pueden ejecutar múltiples réplicas del modelo.

Escenario: Tienes 1 GPU y suficiente memoria de video.
Configuración: número de réplicas=3, número de GPU=1
Resultado: 3 instancias del modelo, ejecutándose en la misma GPU, compartiendo recursos de GPU.

Asignación de GPU mixta

Asignación inteligente: el número de réplicas puede ser diferente al de GPUs, el sistema realizará una asignación inteligente.

Escenario: Tienes 2 GPU y necesitas 3 réplicas.
Configuración: replicación=3, cantidad de GPU=2
Resultado: GPU0 ejecuta 2 instancias, GPU1 ejecuta 1 instancia

Estrategia de asignación mixta#

La estrategia actual es prioridad de inactividad: el planificador siempre intenta asignar réplicas a la GPU más inactiva. Utilice el parámetro XINFERENCE_ENV_LAUNCH_STRATEGY para seleccionar la estrategia de lanzamiento.

Establecer la variable de entorno#

Added in version v1.8.1.

A veces queremos especificar variables de entorno para un modelo específico en tiempo de ejecución. A partir de v1.8.1, Xinference proporciona la función de configurar variables de entorno de forma independiente, sin necesidad de configurarlas antes de iniciar Xinference.

Para la interfaz de usuario web.

Al usar la línea de comandos, utilice --env para especificar variables de entorno.

Ejemplo de uso:

xinference launch xxx --env A 0 --env B 1

Tomando vLLM como ejemplo, tiene dos versiones, V1 y V0, y por defecto seleccionará automáticamente cuál usar. Si desea forzar el uso de V0 al cargar el modelo configurando VLLM_USE_V1=0, puede especificar esa variable de entorno.

configurar el espacio virtual del modelo#

Added in version v1.8.1.

Para esta parte, consulte switch virtual space and custom dependencies.

Procesamiento por lotes / Procesamiento continuo por lotes#

Xinference admite el procesamiento por lotes para aumentar el rendimiento. Para los modelos de lenguaje grande basados en el motor transformers, se puede habilitar la función de procesamiento por lotes continuo, la cual se puede configurar a través de variables de entorno al iniciar.

Configuración clave:

XINFERENCE_BATCH_SIZE y XINFERENCE_BATCH_INTERVAL se utilizan para controlar el comportamiento normal del procesamiento por lotes.
XINFERENCE_TEXT_TO_IMAGE_BATCHING_SIZE (tamaño de lote para modelo de texto a imagen, cuando sea compatible).

Ejemplo (Gran modelo de lenguaje, Transformers):

XINFERENCE_BATCH_SIZE=32 XINFERENCE_BATCH_INTERVAL=0.003 xinference-local --log-level debug
xinference launch -e <endpoint> --model-engine transformers -n qwen1.5-chat -s 4 -f pytorch -q none

Ejemplo (texto a imagen):

XINFERENCE_TEXT_TO_IMAGE_BATCHING_SIZE=1024*1024 xinference-local --log-level debug

Para obtener información detallada sobre el comportamiento, los modelos compatibles y la cancelación de solicitudes, consulte procesamiento por lotes continuo.

Modo de pensamiento#

Algunos modelos de razonamiento híbrido (como Qwen3) admiten un modo de pensamiento opcional. Puede habilitar esta función al iniciar mediante el parámetro --enable-thinking.

Ejemplo de uso:

xinference launch -n qwen3-xxx --model-engine vllm --enable-thinking