Ollama

Ollama est un outil qui permet d'utiliser des modèles d'IA (Llama 2, Mistral, Gemma, etc...) localement sur son propre ordinateur ou serveur.

C'est ultra simple à utiliser, et ça permet de tester des modèles d'IA sans être un expert en IA.

Il supporte un grand nombre de modèles d'IA donc certains en version non censurés.

Rien de mieux pour tester des modèles d'IA non propriétaires !

Installation

Pour l'installer sur Linux :

curl -fsSL https://ollama.com/install.sh | sh
# Ou
curl -fsSL https://ollama.com/install.sh | OLLAMA_VERSION=0.1.32 sh # Pour une version spécifique

Pour l'installer sur Arch Linux :

sudo pacman -S ollama

Pour démarrer le service ollama :

sudo systemctl start ollama

Utilisation

Pour démarrer un modèle d'IA, il suffit de lancer la commande ollama run suivi du nom du modèle.

Par exemple, pour démarrer Mistral :

ollama run mistral

Une fois le modèle démarré, vous pouvez directement interagir avec lui depuis votre terminal.

Pour supprimer le modèle :

ollama rm mistral

Il existe même une commande pour démarrer Ollama en mode serveur avec Docker :

docker run -d --name ollama --restart=always -v ~/.ollama:/root/.ollama -p 11434:11434 ollama/ollama

Vous pouvez interagir avec Ollama via le port 11434 avec des requêtes HTTP :

curl -X POST http://localhost:11434/api/generate -d '{
  "model": "mistral",
  "prompt":"Here is a story about llamas eating grass"
}'

Utilisation des modèles HuggingFace au format .gguf

Et si vous voulez utiliser un modèle au format .gguf, vous pouvez le faire :

ollama run hf.co/bartowski/Llama-3.2-1B-Instruct-GGUF

Utilisation avec un client web

Il est aussi possible d'utiliser un client web comme Open WebUI, Chatbot UI ou Lobe Chat

Open WebUI

Cela donne un rendu très équivalent à ChatGPT.

Nos données restent privées et l'on peut discuter avec un modèle d'IA sans être censuré.

Désinstallation

Pour désintaller Ollama :

sudo systemctl disable --now ollama
sudo rm -rf /var/lib/ollama
sudo pacman -Rsn ollama

Serverless GPU

note

En cours de création

Comment utiliser ollama run <model> (ou open-webui) avec un serveur GPU distant uniquement lorsque une requête est envoyé ?

OLLAMA_HOST=https://my.proxy.com ollama run deepseek-r1
# Use a proxy
# Use runpod
# "Ollama is running" on http://<runpod_ip>:11434/
# https://github.com/marknefedov/ollama-openrouter-proxy

Références :