model#
Lista de modelos#
Puedes listar todos los modelos de un tipo determinado que se pueden iniciar en Xinference.
xinference registrations --model-type <MODEL_TYPE> \
[--endpoint "http://<XINFERENCE_HOST>:<XINFERENCE_PORT>"] \
curl http://<XINFERENCE_HOST>:<XINFERENCE_PORT>/v1/model_registrations/<MODEL_TYPE>
from xinference.client import Client
client = Client("http://<XINFERENCE_HOST>:<XINFERENCE_PORT>")
print(client.list_model_registrations(model_type='<MODEL_TYPE>'))
Xinference es compatible con los siguientes MODEL_TYPE:
Modelo de generación de texto o modelo de lenguaje grande
Modelo de incrustación de texto
Modelo de generación o procesamiento de imágenes
Modelo de audio
Modelo de reordenamiento
Modelo de video
Modelo flexible (modelo de aprendizaje automático tradicional)
Puedes ver todos los modelos integrados compatibles con Xinference en :ref:`aquí <models_builtin_index>`. Si el modelo que necesitas no está disponible, Xinference también te permite registrar tu propio :ref:`modelo personalizado <models_custom>`.
Iniciar y detener el modelo#
A cada instancia de modelo en ejecución se le asignará un uid de modelo único. Por defecto, el uid del modelo es igual al nombre del modelo. Este ID es el identificador para usar posteriormente la instancia del modelo, y la opción --model-uid del comando de inicio permite especificarlo manualmente.
Puedes iniciar un modelo a través de la línea de comandos o del cliente Python de Xinference.
xinference launch --model-name <MODEL_NAME> \
[--model-engine <MODEL_ENGINE>] \
[--model-type <MODEL_TYPE>] \
[--model-uid <MODEL_UID>] \
[--endpoint "http://<XINFERENCE_HOST>:<XINFERENCE_PORT>"] \
from xinference.client import Client
client = Client("http://<XINFERENCE_HOST>:<XINFERENCE_PORT>")
model_uid = client.launch_model(
model_name="<MODEL_NAME>",
model_engine="<MODEL_ENGINE>",
model_type="<MODEL_TYPE>"
model_uid="<MODEL_UID>"
)
print(model_uid)
Para el tipo de modelo LLM, iniciar el modelo no solo requiere especificar el nombre del modelo, sino también el tamaño de los parámetros, el formato del modelo y el motor del modelo. Consulte la documentación Gran modelo de lenguaje.
El siguiente comando puede listar los modelos en ejecución en Xinference:
xinference list [--endpoint "http://<XINFERENCE_HOST>:<XINFERENCE_PORT>"]
curl http://<XINFERENCE_HOST>:<XINFERENCE_PORT>/v1/models
from xinference.client import Client
client = Client("http://<XINFERENCE_HOST>:<XINFERENCE_PORT>")
print(client.list_models())
Cuando ya no necesites el modelo que se está ejecutando actualmente, libera los recursos que ocupa de la siguiente manera:
xinference terminate --model-uid "<MODEL_UID>" [--endpoint "http://<XINFERENCE_HOST>:<XINFERENCE_PORT>"]
curl -X DELETE http://<XINFERENCE_HOST>:<XINFERENCE_PORT>/v1/models/<MODEL_UID>
from xinference.client import Client
client = Client("http://<XINFERENCE_HOST>:<XINFERENCE_PORT>")
client.terminate_model(model_uid="<MODEL_UID>")
Nota
Para modelos que ya no reciben mantenimiento y dependen de bibliotecas antiguas (como transformers), se recomienda habilitar la función espacio virtual del modelo para garantizar que puedan ejecutarse correctamente en un entorno compatible.
Modelo en uso#
Aprende a chatear con LLM en Xinference.
Aprende cómo conectar LLMs con herramientas externas.
Aprenda a crear incrustaciones de texto en Xinference.
Aprende cómo usar modelos de reordenamiento en Xinference.
Aprende a usar Xinference para generar imágenes.
Aprende a usar LLM para procesar imágenes y audio.
Aprende a usar Xinference para convertir audio a texto o texto a audio.
Aprende a usar Xinference para generar videos.
Comprende cómo usar Xinference para inferir modelos tradicionales de aprendizaje automático.
- Xinference Models Hub
- Capacidad del modelo
- Modelo integrado
- Modelo personalizado
- model update
- Origen del modelo
- Model Virtual Environment
- Contexto
- Solución
- Gestión de entornos virtuales (v2.0)
- Ubicación de almacenamiento
- Saltar bibliotecas ya instaladas
- Carga del modelo: activar el entorno virtual y personalizar dependencias
- Gestión de entornos virtuales
- funcionalidades principales
- Operaciones de gestión
- Formato JSON de ModelHub (aplicable a modelos Xinference)
- Integrar LoRA
- Cálculo del uso de memoria del modelo