Blog · IA

Héberger un LLM open source : vLLM, Ollama et la souveraineté

11 juin 20265 min de lecturepar Scroll

Quand la souveraineté ou le volume l’imposent, on auto-héberge un modèle open source. Ollama pour démarrer, vLLM pour la production.

Utiliser un LLM via une API (OpenAI, Mistral) est simple. Mais dès qu'on parle de souveraineté stricte ou de très gros volume, une autre voie s'ouvre : héberger soi-même un modèle open source. Deux outils dominent — Ollama et vLLM — pour deux usages différents.

Pourquoi auto-héberger un LLM

Trois raisons, rarement une seule :

Souveraineté : les données ne quittent jamais votre infrastructure. Décisif en santé, finance, défense, secteur public.
Coût : à très haut volume, le coût à l'appel d'une API dépasse celui d'un GPU dédié bien utilisé.
Contrôle : version du modèle figée, pas de dépendance à un fournisseur qui change ses prix ou ses modèles.

Ollama : simple, pour démarrer et le local

Ollama rend trivial le fait de faire tourner un modèle open source (Llama, Mistral, etc.) sur une machine. Idéal pour prototyper, pour des usages locaux ou un volume modéré. Sa limite : il n'est pas pensé pour servir des milliers de requêtes concurrentes en production.

vLLM : la production à débit élevé

vLLM est un moteur d'inférence optimisé pour le débit. Sur GPU (Scaleway, OVH), il sert beaucoup de requêtes en parallèle avec une latence maîtrisée, grâce à des techniques comme le continuous batching. C'est l'outil quand l'auto-hébergement doit tenir une vraie charge.

Quand auto-héberger, quand utiliser une API

API (Mistral en UE) pour la plupart des projets : démarrage rapide, derniers modèles, pas d'ops GPU. Voir notre page Agence Mistral.
Self-hosted (Ollama/vLLM) quand la souveraineté est stricte, le volume très élevé, ou les deux.

Le choix se cadre sur le niveau de confidentialité requis et le coût réel à votre volume — c'est l'un des arbitrages de nos assistants IA connectés à vos données.

Une contrainte de souveraineté sur vos données IA ? On dimensionne l'infra avec vous.

Héberger un LLM open source : vLLM, Ollama et la souveraineté

Pourquoi auto-héberger un LLM

Ollama : simple, pour démarrer et le local

vLLM : la production à débit élevé

Quand auto-héberger, quand utiliser une API

LangChain, LangGraph, LlamaIndex : quel framework pour votre IA ?

MCP (Model Context Protocol) : connecter vos outils à l’IA, proprement

pgvector ou Qdrant : quelle base vectorielle pour votre RAG ?