Large Language Models (LLM) sind Sprachmodelle, die mit großen Datenmengen trainiert wurden und aus denen sich Programme wie ChatGPT oder Deepseek bedienen, um ihre Antworten zu generieren. Mit Hilfe von ollama lassen sich solche auch auf dem Raspberry Pi 5 betreiben.

LLM
Ein LLM wird üblicherweise mit einer großen Menge an Textdaten gefüttert und lernt dabei, wie bestimmte Wörter im Zusammenhang zu einander stehen. Die Texte werden in sog. Tokens zerlegt und eine Wahrscheinlichkeit berechnet, welches Token auf das aktuelle folgen könnte.
ollama
Installation
Zunächst muss ollama erstmal auf unserem Raspberry Pi installiert werden. Dazu finden wir auf der Homepage ein Script, dass wir nur in der bash ausführen müssen. Ich verwende in diesem Post einen Raspberry Pi 5B 8GB mit Active Cooler.
curl -fsSL https://ollama.com/install.sh | sh
Die LLM werden dabei nicht automatisch mit installiert, ollama lädt sie beim Start automatisch aus seinem Repository nach.
Der übliche Aufruf dafür ist
ollama <model>
Zum Test bitte ich jedes Modell, die Handlung des Film „Men in Black“ zusammenzufassen und schaue mir die Qualität der Antwort an. Ebenso lasse ich mir die Antwortzeit ausgeben, in dem ich den Parameter –verbose dem Programmaufruf anhänge. Die Anfrage, die ich jedes mal verwende ist „summarize the plot of the first "Men in Black" movie„. Den Film kenne ich hinreichend gut, um die Qualität der Antwort bewerten zu können.
Wie genau ein LLM arbeitet hängt auch von der Anzahl der Parameter ab, mit denen es trainiert wurde. Diese werden üblicherweise in amerikanischen Billionen, auf deutsch folglich Milliarden angegeben. Die Angabe 2,8b bedeutet folglich 2,8 Milliarden.
Die ollama Website listet mehr LLM als ich für einen brauchbaren Blog-Post kommentieren könnte, daher teste ich nur einige wahllos herausgepickte.
tinyllama
Wie der Name schon sagt, ist tinyllama ein sehr kleines Model mit 637MB Größe mit 1,1b Parametern.
Beim Aufruf ollama tinyllama
–verbose wird das LLM in mehreren Chunks nachgeladen. Dies geht relativ flott. Der Downloadvorgang ist bei jedem Modell mehr oder weniger identisch, daher kommentiere ich ihn nicht jedes mal.

Die Frage nach der Filmhandlung ist völlig unsinnig, so sollen Martin Lawrence und Jim Carrey in dem Film mitspielen. Ich hab fast den Eindruck, dass während der Antwort auf einen anderen Film gewechselt wird.
phi
Der Download von phi schlägt schon mit 1,6GB zu Buche. Nach über 2 [math] \frac{1}{2}[/math] Minuten kam dort keine brauchbare Antwort auf meine Testfrage zurück. So ist in der Antwort von den Agenten Mac und Jerry die Rede, die im Film beide nicht vorkommen.
llava
llava schraubt die Downloaddaten auf 4,7GB hoch. Die Antwort, die nach knapp 90s erscheint ist halbwegs zufriedenstellend, könnte aber ausführlicher sein.
llama3
Auch llama3 lädt 4,7GB an Daten nach. Das Ergebnis, das das LLM von Meta nach gut 3 Minuten ausspuckt ist ziemlich gut und ausführlich.

Deepseek R1
Das chinesische Startup Deepseek machte Ende Januar 2025 weltweit Schlagzeilen, als es sein Sprachmodell vorstellte, das sehr viel kostengünstiger trainiert wurde als vergleichbare Modelle. In Folge brach der Aktienkurs von NVIDIA um 593 Mrd. US Dollar ein. Tests haben gezeigt, dass einige historische Fakten in Deepseek zensiert wurden.
Auch das deepseek-r1 Modell von 2023 belegt 4,7GB Speicher. Die Antwort nach etwas mehr als 8 Minuten ist völlig unbrauchbar.
Deepseek R3
Das R3 Modell von Deepseek hat ein Volumen von satten 440GB.
Der Download über WLAN auf dem Raspberry Pi 5 kam nach über 12 Stunden zum Stillstand, daher habe ich ihn abgebrochen.
Der zweite Download auf Hauptrechner mit kabelgebundenen Netzwerk war nach geschätzt 2h erfolgreich. Allerdings reichen die 128GB Hauptspeicher bei weitem nicht aus, um das LLM zu laden. Daher gibt es hier keine Testmöglichkeit für mich.
Model | Hersteller | Parameter | Speicherverbrauch | Lizenz | Laufzeit | Antwortqualität |
---|---|---|---|---|---|---|
tinyllama | OpenSource | 1,1b | 637MB | Apache | 24.387617981s | Unsinnige Antwort. |
phi | Microsoft | 2,8b | 1,6GB | MIT | 2 Minuten 39.691083496s | teilweise brauchbar |
llava | Microsoft | 7,2b | 4,7GB | Apache | 1 Minute 25.629187111s | zufriedenstellend |
llama3 | Meta | 8,0b | 4,7GB | META LLAMA 3 COMMUNITY LICENSE AGREEMENT | 3 Minuten 4.925977295s | gut |
deepseek-v3 | Deepseek | 681,0b | 404GB | DEEPSEEK LICENSE AGREEMENT | – | – |
deepseek-r1 | Deepseek | 7,6b | 4,7GB | MIT | 8 Minuten 23.00118112s | völlig unbrauchbar |
Fazit
Ein LLM auf dem Raspberry Pi zu betreiben ist möglich, aber mühsam. Man kann in alle getesteten Modellen sehen, wie die Antwort Wort für Wort ausgegeben wird. Da der Raspi weder über eine hochgezüchtete GPU oder Unmengen an Hauptspeicher verfügt, sind Abstriche in den Möglichkeiten unvermeidbar. Die Qualität der Antwort steigt mit der Anzahl der Parameter mit denen ein Modell trainiert wurde. Bei allen Modellen werden während der Antwortgenerierung sämtliche vier Prozessorkerne des Raspberry Pi 5 voll ausgelastet. Die Temperatur bleibt aber im akzeptablen Bereich.

Problematisch sehe ich, dass die LLM durch Regierungs- oder Konzerninteressen Antworten liefern, die nicht mit den Fakten übereinstimmen, daher ist es wichtig, Antworten aus einem Large Language Model kritisch zu hinterfragen und gegen zu prüfen.
Ein LLM lokal zu betreiben hat aber den großen Vorteil, dass du keinerlei persönliche Informationen irgendwo preisgeben musst.
Übrigens: Das Titelbild dieses Posts hat mir ChatGPT mit DALL-E generiert.