LLM hosting in Europa

Europäische LLM-Anbieter

Nachdem sich das Heidelberger Startup Aleph Alpha aus dem resssourcenintensiven Rennen um eigene Foundation Models verabschiedet hat, ist mit nur noch das französische Startup Mistral AI als europäischer Anbieter eines Grundlagenmodells bekannt.

Für das europäische Hosting von LLMs sehe ich daher derzeit zwei Optionen:

  1. Nutzung von Mistral AI
  2. Nutzung eines in Europa gehosteten OpenSource Modells wie Llama 3.1

MistralAI in der Praxis

MistralAI bietet verschiedene Modelle an. Kommt es auf Textverständnis und eine gewisse Menge Schlussfolgerungsfähigkeit an (Beispielsweise Wissen oder Aussagen aus Texten zusammenzutragen), dann sollte das Large-Modell genutzt werden. Für kleinere Aufgaben, z. B. unstrukturierten Text in das JSON-Format umzuwandeln, nutze ich auch gerne das sehr günstige Ministral 3B 24.10. Positiv sind mir die OCR-Fähigkeiten des Pixtral Large-Modells aufgefallen, beispielsweise bei der Umwandlung von Fotos des Armaturenbretts in Kilometerstand-JSON-Objekte, dem Automatisierten Auslesen des Gaszählers oder selbst der Umwandlung des ALDI-Kassenbons in ein JSON-Objekt für das Haushaltsbuch.

Derzeit kann man sich zwischen zwei Möglichkeiten entscheiden:

  1. Nutzung der bezahlten API, bei der MistralAI verspricht die eigenen Nutzungsdaten nicht für das Training der Modelle zu nutzen.
  2. Nutzung der kostenfreien API, bei der Ein- und Ausgaben über die API für Trainingszwecke aufgezeichnet werden.

Ich nutze je nach Situation die eine oder andere Option. Innerhalb eines Kundenaccounts können getrennte Zugangsdaten (Access Token) für beide Optionen eingerichtet werden. Beispielsweise sehe ich die Nutzung meiner RSS-Feed-Deduplizierungs-Anwendung für das Training eher positiv: Die Daten stammen ohnehin aus öffentlichen Quellen und ich unterstütze gerne die europäische KI-Industrie mit strukturierten Trainingsdaten. Geht es aber darum meine eigenen Texte stilistisch zu überarbeiten oder in eine andere Sprache zu übersetzen, nutze ich die bezahlte API, um Herr meiner Daten zu bleiben. Eine wichtige Einschränkung hat die kostenfreie API aber dennoch: Die Anzahl der API-Aufrufe ist auf 1/s beschränkt, was ein time.sleep(1) in den meisten Python-Skripten erfordert.

OpenSource LLM-Hosting in Europa

Zur Nutzung von OpenSource LLMs gibt es ebenfalls mehrere Optionen:

  1. Die Nutzung auf dem eignen Laptop, beispielsweise mittels Ollama und Open-WebUI, wenn ein ChatGPT-ähnliches Frontend gewünscht ist.
  2. Die Nutzung eines europäischen API-Anbieters
  3. Die Nutzung eines europäischen Hosting-Anbieters von GPU-fähigen Containern

Die erste Option ist sicherlich aus Gründen der Privatsphäre zu bevorzugen. Entweder man investiert in eine Grafikkarte oder nutzt die eigene CPU und genügt sich mit einer sehr gemächlichen Token-Ausgabegeschwindigkeit im niedrigen einstelligen Bereich. Interaktive Text- oder Sprach-Chats machen damit keinen Spaß, für die automatisierte Verarbeitung von Dokumenten, RSS-Feeds, E-Mails und ähnlichem ist es aber ok.

Für die zweite Option kenne ich aktuell nur den Anbieter IONOS mit seinem neuen Produkt AI Model Hub. Dort stehen aktuell die Llama 3.1 Modelle in Größen von 8B bis 405B zur Verfügung, sowie Stable Diffusion XL zur Bilderzeugung und eine Reihe Embedding-Modelle (hier als Data collections bezeichnet). Der API-Dienst ist bei Erstellung eines Cloud-Benutzerzugangs inkl. Hinterlegung eines Zahlungsmittels bis zum 31.3.2025 kostenfrei nutzbar!

Für die dritte Option empfehle ich den niederländischen Anbieter leafcloud. Dort bekommt ihr eine virtuelle Maschine mit 1-8 Nvidia GPUs der Modelle H100, A100, A30 oder V100. Der Anbieter ist in meinem Preisvergleich 2024 nicht nur durch die günstigsten Stundenpreise aufgefallen, sondern betreibt seine Server dezentral (leaf sites) an Orten, wo Wärmebedarf besteht, beispielsweise in Schwimmbädern oder großen Wohnblocks. Dadurch wird die sonst sinnlos verheizte Energie noch einer Verwendung zugeführt und der Anbieter stellt sich damit eine CO2-negative Klimabilanz auf. Für den einfachen Einstieg gibt es direkt ein Image, in dem alle CUDA-Bibliotheken und IPython Notebook vorinstalliert sind, sodass ihr innerhalb weniger Sekunden in eurem Notebook mit der GPU loslegen könnt. Alternativ kann auch eine eigene Minimal-Maschine auf Basis üblicher Betriebssystemimages angelegt werden, die CUDA-Bibliotheken hinzugefügt werden und z. B. Ollama installiert werden.

Preisvergleich MistralAI vs. IONOS AI Model Hub

Die Preisgestaltung ist nach meinem Gefühl ein wenig arbiträr. Einerseits ist es natürlich schwierig die Modelle anhand der Größe oder Generation gegenüberzustellen. Im Fall von IONOS werden aber auch die OpenSource-Modelle von MistralAI angeboten, was einen 1:1-Preisvergleich sehr einfach macht. Das große Llama 3.1 405B bietet IONOS zu einem sehr attraktiven Preis an, wohingegen die 8B-Modellgröße lieber direkt bei MistralAI genutzt werden sollte. Ein regelmäßiger Preisvergleich kann sich also lohnen.

MistralAI Model €/1M tokens €/1M tokens IONOS Modell
Mistral Large 24.11 In: $2, Out: $5 In: $1.65, Out: $1.93 Llama 3.1 405B Instruct
Mixtral 8x7B Instruct In: $0.7, Out: $0.7 In: $0.50, Out: $0.72 Mixtral 8x7B Instruct
Ministral 8B 24.10 In: $0.1, Out: $0.1 In: $0.17, Out: $0.28 Llama 3.1 8B Instruct
open-mistral-7b In: $0.25, Out: $0.25 In: $0.17, Out: $0.28 Mistral 7B Instruct

LLM