Cálculo del uso de memoria del modelo#

Para planificar mejor el uso de la memoria de video, Xinference ofrece una herramienta para calcular el uso de memoria de video del modelo: cal-model-mem

Algoritmo de: RahulSChand/gpu_poor

model_mem, kv_cache, overhead, active_mem

Ejemplo: Para calcular el uso de memoria de la GPU del modelo qwen1.5-chat, puede ejecutar el siguiente comando de ejemplo:

xinference cal-model-mem -s 7 -q Int4 -f gptq -c 16384 -n qwen1.5-chat

model_name: qwen1.5-chat
kv_cache_dtype: 16
model size: 7.0 B
quant: Int4
context: 16384
gpu mem usage:
  model mem: 4139 MB
  kv_cache: 8192 MB
  overhead: 650 MB
  active: 17024 MB
  total: 30005 MB (30 GB)

Sintaxis#

–size-in-billions {model_size}
- -s {model_size}
Establece el tamaño del modelo. Especifica el tamaño del modelo en miles de millones de parámetros. El formato del parámetro acepta formas como 1_8 y 1.8. Por ejemplo, 7 indica un tamaño de modelo de 7.0B.
–quantization {precision}
- -q {precision} (opcional)
Especificar la configuración de cuantización del modelo. Por ejemplo: el parámetro Int4 indica el uso de cuantización INT4.
–model-name {model_name}
- -n {model_name} (opcional)
Especifica el nombre del modelo. Si se proporciona este parámetro, se obtendrá la configuración del modelo desde huggingface/modelscope; si no se especifica, se utilizarán los parámetros de capa predeterminados para una estimación aproximada.
–context-length {context_length}
- -c {context_length}
Especifica la longitud máxima de contexto del modelo.
–model-format {format}
- -f {format}
El formato del modelo especificado, por ejemplo: pytorch, ggmlv3, etc.

Nota

El uso de la variable de entorno HF_ENDPOINT permite configurar el Endpoint del servidor HuggingFace. Por ejemplo, cuando la red no sea óptima, se puede elegir hf-mirror como Endpoint. Para más detalles, consulte este documento.