Comment bien démarrer avec Ramalama ?

Qu’est ce que Ramalama ?

RamaLama est un projet open source visant à simplifier la gestion et le déploiement de modèles d’intelligence artificielle (IA) en utilisant des conteneurs OCI (Open Container Initiative). Son objectif principal est de rendre le travail avec l’IA aussi simple et prévisible que possible, en éliminant les complexités souvent associées à la configuration et à l’exécution des modèles d’IA.

Lors de sa première exécution, RamaLama inspecte votre système pour détecter la présence de GPU. Si aucun GPU n’est trouvé, il bascule automatiquement vers le support CPU. Il utilise ensuite un moteur de conteneurs tel que Podman ou Docker pour télécharger une image de conteneur contenant tous les logiciels nécessaires à l’exécution d’un modèle d’IA adapté à votre configuration système.

Une fois l’image du conteneur en place, RamaLama récupère le modèle d’IA spécifié à partir de divers registres de modèles, y compris Hugging Face et Ollama. Il prend en charge plusieurs runtimes d’inférence, notamment llama.cpp et vLLM, permettant ainsi aux développeurs de choisir le runtime le plus adapté à leur modèle et à leur matériel. En exécutant les modèles d’IA dans des conteneurs, RamaLama élimine le besoin de configurer le système hôte pour l’IA, simplifiant ainsi le processus pour les utilisateurs.

En termes de sécurité, RamaLama exécute par défaut les modèles d’IA dans des conteneurs sans privilèges, isolant ainsi les modèles des informations présentes sur le système hôte. Les modèles sont montés en lecture seule dans le conteneur, empêchant toute modification indésirable. De plus, l’option --network=none est utilisée, empêchant le conteneur d’accéder au réseau et de potentiellement divulguer des informations.

Le projet est activement développé et encourage la participation de la communauté pour améliorer et étendre ses fonctionnalités. Les contributions sont les bienvenues, qu’il s’agisse de documentation, de conception web ou de packaging pour différentes distributions Linux et autres systèmes.

​Le projet open source RamaLama a été créé par Eric Curtin et Dan Walsh, deux ingénieurs de Red Hat connus pour leur travail antérieur sur l’outil de gestion de conteneurs Podman et SELinux.

Installation sou Fedora 41

Pour installer Ramalama sous Fedora 41

Vous pouvez exécuter un chatbot sur un modèle en utilisant la commande run. Par défaut, il récupère les données depuis le registre Ollama.
Remarque : RamaLama inspectera votre machine pour détecter la prise en charge native du GPU, puis utilisera un moteur de conteneur comme Podman pour extraire une image de conteneur OCI avec le code et les bibliothèques appropriés pour exécuter le modèle d’IA. Cette configuration peut prendre beaucoup de temps, mais seulement lors de la première exécution (comme le modèle doit être téléchargé).

Vous êtes prêt maintenant à discuter avec le LLM

Dans une autre fenêtre de terminal, voyez le conteneur podman en cours d’exécution.

Vous pouvez lister tous les modèles récupérés dans le stockage local.

Vous pouvez extraire un modèle à l’aide de la commande pull. Par défaut, elle est extraite du registre Ollama.

Vous pouvez servir plusieurs modèles à l’aide de la commande serve. Par défaut, elle est extraite du registre Ollama.

Vous pouvez vous connecter à l’interface web pour interroger le LLM : http://127.0.0.1:8080

Vous pouvez arrêter un modèle en cours d’exécution s’il s’exécute dans un conteneur.

SITE WEB DU PROJET : https://ramalama.ai/
GITHUB : https://github.com/containers/ramalama

Laisser un commentaire

Votre adresse courriel ne sera pas publiée. Les champs obligatoires sont indiqués avec *