Variables de entorno#

XINFERENCE_ENDPOINT#

Dirección del servicio de Xinference, utilizada para conectarse con Xinference. La dirección predeterminada es http://127.0.0.1:9997, que se puede obtener en los registros.

XINFERENCE_MODEL_SRC#

Configurar el repositorio de descarga del modelo. La fuente de descarga predeterminada es «huggingface», también se puede configurar «modelscope» como fuente de descarga.

XINFERENCE_HOME#

Xinference utiliza por defecto <HOME>/.xinference como directorio predeterminado para almacenar modelos y archivos necesarios como registros. <HOME> es el directorio principal del usuario actual. Se puede modificar el directorio predeterminado configurando esta variable de entorno.

XINFERENCE_HEALTH_CHECK_FAILURE_THRESHOLD#

Número máximo de fallos de verificación de salud permitidos al iniciar Xinference. El valor predeterminado es 5.

XINFERENCE_HEALTH_CHECK_INTERVAL#

Intervalo de verificación de salud al iniciar Xinference (en segundos). El valor predeterminado es 5.

XINFERENCE_HEALTH_CHECK_TIMEOUT#

Tiempo de espera de la verificación de salud al iniciar Xinference (en segundos). El valor predeterminado es 10.

XINFERENCE_DISABLE_HEALTH_CHECK#

Cuando se cumplan las condiciones, Xinference informará automáticamente del estado del worker; establecer esta variable de entorno en 1 puede deshabilitar la verificación de estado.

XINFERENCE_DISABLE_METRICS#

Xinference habilita por defecto el exportador de métricas en supervisor y worker. Establecer la variable de entorno en 1 permite deshabilitar el punto final /metrics en el supervisor y deshabilitar el servicio HTTP en el worker (solo proporciona el punto final /metrics).

XINFERENCE_DOWNLOAD_MAX_ATTEMPTS#

El número máximo de reintentos de descarga para el archivo del modelo. El valor predeterminado es 3.

XINFERENCE_TEXT_TO_IMAGE_BATCHING_SIZE#

Habilitar el procesamiento por lotes continuo para el modelo de texto a imagen especificando el tamaño de la imagen de destino (por ejemplo, 1024*1024). Por defecto no está configurado.

XINFERENCE_SSE_PING_ATTEMPTS_SECONDS#

Intervalo de ping de keep-alive de eventos enviados por el servidor (en segundos). El valor predeterminado es 600.

XINFERENCE_MAX_TOKENS#

El límite máximo global de tokens de la solicitud está sobrescrito. El valor predeterminado es no establecido.

XINFERENCE_ALLOWED_IPS#

Restringir el acceso a una dirección IP o bloque de direcciones CIDR específicos. Por defecto no está configurado (sin restricciones).

XINFERENCE_BATCH_SIZE#

Tamaño de lote predeterminado utilizado por el servidor cuando se habilita el procesamiento por lotes. El valor predeterminado es 32.

XINFERENCE_BATCH_INTERVAL#

Intervalo de procesamiento por lotes predeterminado (en segundos). El valor predeterminado es 0.003.

XINFERENCE_ALLOW_MULTI_REPLICA_PER_GPU#

¿Está permitido crear múltiples réplicas en una sola GPU. El valor predeterminado es 1 (habilitado).

XINFERENCE_LAUNCH_STRATEGY#

La estrategia de asignación de GPU para réplicas. El valor predeterminado es IDLE_FIRST_LAUNCH_STRATEGY.

XINFERENCE_MAX_CONCURRENT_LAUNCHES#

Maximum number of model launches that can proceed concurrently on a single worker node. When more replicas are launched than this limit, excess launches queue and proceed as slots free up. This prevents resource exhaustion (fork storms, disk IO saturation, GPU memory contention) that can cause heartbeat timeouts. Default value is 5.

XINFERENCE_ENABLE_VIRTUAL_ENV#

Habilitar globalmente el entorno virtual del modelo. El valor predeterminado es 1 (habilitado, efectivo desde la versión v2.0).

XINFERENCE_VIRTUAL_ENV_SKIP_INSTALLED#

Al crear el entorno virtual, omita los paquetes ya existentes en los site-packages del sistema. El valor predeterminado es 1.

XINFERENCE_CSG_TOKEN#

El token de autenticación para la fuente del modelo CSGHub. El valor predeterminado es no establecido.

XINFERENCE_CSG_ENDPOINT#

CSGHub extremo de origen del modelo. El valor predeterminado es https://hub-stg.opencsg.com/ .

XINFERENCE_QWEN3_RERANK_TEMPLATE#

Enable template for Qwen3 rerank model family (0.6B, 4B, 8B,etc) globally. Default value is 1.

XINFERENCE_LAUNCH_HISTORY_DB_PATH#

Path to the SQLite database that stores the model launch configuration history shown in the «Launch Model» drawer of the Web UI. This store is shared across all clients so the history is available from any browser or machine, and it is independent of the authentication database. When authentication is enabled, each record keeps the creator’s username (created_by). Default value is <XINFERENCE_HOME>/launch_history.db.