Large Language Models auf dem Raspberry Pi

Large Language Models (LLM) sind Sprachmodelle, die mit großen Datenmengen trainiert wurden und aus denen sich Programme wie ChatGPT oder Deepseek bedienen, um ihre Antworten zu generieren. Mit Hilfe von ollama lassen sich solche auch auf dem Raspberry Pi 5 betreiben.

LLM

Ein LLM wird üblicherweise mit einer großen Menge an Textdaten gefüttert und lernt dabei, wie bestimmte Wörter im Zusammenhang zu einander stehen. Die Texte werden in sog. Tokens zerlegt und eine Wahrscheinlichkeit berechnet, welches Token auf das aktuelle folgen könnte.

ollama

Installation

Zunächst muss ollama erstmal auf unserem Raspberry Pi installiert werden. Dazu finden wir auf der Homepage ein Script, dass wir nur in der bash ausführen müssen. Ich verwende in diesem Post einen Raspberry Pi 5B 8GB mit Active Cooler.

curl -fsSL https://ollama.com/install.sh | sh

Die LLM werden dabei nicht automatisch mit installiert, ollama lädt sie beim Start automatisch aus seinem Repository nach.

Der übliche Aufruf dafür ist

ollama <model>

Zum Test bitte ich jedes Modell, die Handlung des Film „Men in Black“ zusammenzufassen und schaue mir die Qualität der Antwort an. Ebenso lasse ich mir die Antwortzeit ausgeben, in dem ich den Parameter –verbose dem Programmaufruf anhänge. Die Anfrage, die ich jedes mal verwende ist „summarize the plot of the first "Men in Black" movie„. Den Film kenne ich hinreichend gut, um die Qualität der Antwort bewerten zu können.

Wie genau ein LLM arbeitet hängt auch von der Anzahl der Parameter ab, mit denen es trainiert wurde. Diese werden üblicherweise in amerikanischen Billionen, auf deutsch folglich Milliarden angegeben. Die Angabe 2,8b bedeutet folglich 2,8 Milliarden.

Die ollama Website listet mehr LLM als ich für einen brauchbaren Blog-Post kommentieren könnte, daher teste ich nur einige wahllos herausgepickte.

tinyllama

Wie der Name schon sagt, ist tinyllama ein sehr kleines Model mit 637MB Größe mit 1,1b Parametern.

Beim Aufruf ollama tinyllama –verbose wird das LLM in mehreren Chunks nachgeladen. Dies geht relativ flott. Der Downloadvorgang ist bei jedem Modell mehr oder weniger identisch, daher kommentiere ich ihn nicht jedes mal.

Die Frage nach der Filmhandlung ist völlig unsinnig, so sollen Martin Lawrence und Jim Carrey in dem Film mitspielen. Ich hab fast den Eindruck, dass während der Antwort auf einen anderen Film gewechselt wird.

phi

Der Download von phi schlägt schon mit 1,6GB zu Buche. Nach über 2,5 Minuten kam dort keine brauchbare Antwort auf meine Testfrage zurück. So ist in der Antwort von den Agenten Mac und Jerry die Rede, die im Film beide nicht vorkommen.

llava

llava schraubt die Downloaddaten auf 4,7GB hoch. Die Antwort, die nach knapp 90s erscheint ist halbwegs zufriedenstellend, könnte aber ausführlicher sein.

llama3

Auch llama3 lädt 4,7GB an Daten nach. Das Ergebnis, das das LLM von Meta nach gut 3 Minuten ausspuckt ist ziemlich gut und ausführlich.

Deepseek R1

Das chinesische Startup Deepseek machte Ende Januar 2025 weltweit Schlagzeilen, als es sein Sprachmodell vorstellte, das sehr viel kostengünstiger trainiert wurde als vergleichbare Modelle. In Folge brach der Aktienkurs von NVIDIA um 593 Mrd. US Dollar ein. Tests haben gezeigt, dass einige historische Fakten in Deepseek zensiert wurden.

Auch das deepseek-r1 Modell von 2023 belegt 4,7GB Speicher. Die Antwort nach etwas mehr als 8 Minuten ist völlig unbrauchbar.

Deepseek R3

Das R3 Modell von Deepseek hat ein Volumen von satten 440GB.

Der Download über WLAN auf dem Raspberry Pi 5 kam nach über 12 Stunden zum Stillstand, daher habe ich ihn abgebrochen.

Der zweite Download auf Hauptrechner mit kabelgebundenen Netzwerk war nach geschätzt 2h erfolgreich. Allerdings reichen die 128GB Hauptspeicher bei weitem nicht aus, um das LLM zu laden. Daher gibt es hier keine Testmöglichkeit für mich.

Model	Hersteller	Parameter	Speicherverbrauch	Lizenz	Testsystem	Laufzeit	Antwortqualität
gpt-oss	OpenAI	20b	13GB	Apache 2.0	Raspberry Pi 5 16GB	14 Minuten 54,629214351s	mittelmäßig
gpt-oss	OpenAI	120b	65 GB	Apache 2.0	Intel i9-10900K (20) @ 5.300GHz	8 Minuten 0,491043453s	sehr gut
tinyllama	OpenSource	1,1b	637MB	Apache	Raspberry Pi 5B 8GB	24.387617981s	Unsinnige Antwort.
phi	Microsoft	2,8b	1,6GB	MIT	Raspberry Pi 5B 8GB	2 Minuten 39.691083496s	teilweise brauchbar
llava	Microsoft	7,2b	4,7GB	Apache	Raspberry Pi 5B 8GB	1 Minute 25.629187111s	zufriedenstellend
llama3	Meta	8,0b	4,7GB	META LLAMA 3 COMMUNITY LICENSE AGREEMENT	Raspberry Pi 5B 8GB	3 Minuten 4.925977295s	gut
deepseek-v3	Deepseek	681,0b	404GB	DEEPSEEK LICENSE AGREEMENT	Raspberry Pi 5B 8GB	–	–
deepseek-r1	Deepseek	7,6b	4,7GB	MIT	Raspberry Pi 5B 8GB	8 Minuten 23.00118112s	völlig unbrauchbar
gemma3	Google	4,3b	3,3GB	Gemma Terms of Use	Raspberry Pi 5B 8GB	1 Minute 14.086309352s	unbrauchbar
gemma3	Google	12b	8,1GB	Gemma Terms Of Use	Intel i9-10900K (20) @ 5.300GHz	3 Minuten 34.5325445s	sehr gut
gemma3	Google	27b	17GB	Gemma Terms of Use	Intel i9-10900K (20) @ 5.300GHz	4 Minuten 41.199445574s	sehr gut
phi4	Microsoft	14b	9,1GB	MIT	Raspberry Pi 5B 16GB	3 Minuten 17.342953352s	teilweise brauchbar
phi4:14b-Q8_0	Microsoft	14b	17GB	MIT	Intel i9-10900K (20) @ 5.300GHz	5 Minuten 42.156362295s	unbrauchbar
phi4:14b-fp16	Microsoft	14b	29GB	MIT	Intel i9-10900K (20) @ 5.300GHz	7 Minuten 34.78815032s	unsinnig
phi4:14b-q4_K_M	Micro	14b	9,1GB	MIT	Raspberry Pi 5B 16GB	4 Minuten 44.654069613s	Thema verfehlt

Fazit

Ein LLM auf dem Raspberry Pi zu betreiben ist möglich, aber mühsam. Man kann in alle getesteten Modellen sehen, wie die Antwort Wort für Wort ausgegeben wird. Da der Raspi weder über eine hochgezüchtete GPU oder Unmengen an Hauptspeicher verfügt, sind Abstriche in den Möglichkeiten unvermeidbar. Die Qualität der Antwort steigt mit der Anzahl der Parameter mit denen ein Modell trainiert wurde. Bei allen Modellen werden während der Antwortgenerierung sämtliche vier Prozessorkerne des Raspberry Pi 5 voll ausgelastet. Die Temperatur bleibt aber im akzeptablen Bereich.

Anzeige von btop während der Antwortgenerierung

Problematisch sehe ich, dass die LLM durch Regierungs- oder Konzerninteressen Antworten liefern, die nicht mit den Fakten übereinstimmen, daher ist es wichtig, Antworten aus einem Large Language Model kritisch zu hinterfragen und gegen zu prüfen.

Ein LLM lokal zu betreiben hat aber den großen Vorteil, dass du keinerlei persönliche Informationen irgendwo preisgeben musst.

Übrigens: Das Titelbild dieses Posts hat mir ChatGPT mit DALL-E generiert.

Nachtrag 17.03.25: Anfang März veröffentlichte Google sein gemma3 Model zu dem in Kürze ein separater Post erscheinen wird.

LLM