Ja, auch ich habe mir vor ca. 2 Monaten einen Mac Mini 4 mit zu wenig Speicher (16 GB) gekauft, um etwas mit lokalen Machine-Learning-Systemen zu experimentieren. Da ich viel zu wenig Zeit zu Rumspielen habe, sind meine Erkenntnisse sicher nicht weltbewegend und geneigte Leser:innen können gleich jetzt beschliessen, mit dem Lesen dieses Postings aufzuhören ![]()
Der Mac Mini auf meinem Büchergestell
Als Ende 2022 ChatGPT (Biblionetz:w03387) veröffentlicht wurde, hiess es, dass derartige Leistungen von generativen Machine-Learning-Systemen (GMLS) (Biblionetz:w02833) in den nächsten Jahren nur auf grossen Serverfarmen, nicht aber auf lokalen Computern verfügbar sein würden. In den letzten drei Jahren hat aber eine erstaunliche technologische Entwicklung stattgefunden und immer bessere Sprachmodelle liessen sich auch auf lokalen Computern (mit möglichst guten Grafikkarten laufen lassen).
Warum ein lokales GMLS?
Aus meiner Sicht gibt es zwei Gründe, warum man ein lokales GMLS (LGMLS) (Biblionetz:w03773) statt eines Serverdienstes nutzen möchte:
- Kosten: Grosse Sprachmodelle verlangen ab einem bestimmten Nutzungsumfang Gebühren. Lokale Modelle verlangen keine Gebühren. Ob aber die Hardwareinvestitionen, der Stromverbrauch und die Zeit zum Einrichten und Konfigurieren letztendlich weniger Geld kosten als die Nutzungsgebühren kommerzieller Anbieter, wage ich zu bezweifeln.
- Datenschutz / Digitale Souveränität: Wichtiger scheint mir die Überlegung, dass man mit einem lokalen GMLS eine grössere digitale Souveränität hat als bei der Nutzung von GMLS im Internet:
- Modellwahl & -stabilität: Bei einem lokalen System kann ich selbst entscheiden, welche Modelle ich nutze und im Gegensatz zu Anbietern im Internet, die öfters mal Modelle auch durch andere ersetzen oder schon nur Modellparameter auch ohne Information ändern, ist es an mir, Modelle oder Parameter zu ändern,
- Datenschutz: Führe ich einen Dialog mit einem lokalen GMLS, dann verlassen im Idealfall* keine Daten meinen Computer. Damit verringert sich die Gefahr, dass meine Daten in falsche Hände kommen und ausgewertet werden können. (* Auch bei einem lokalen System besteht die Gefahr, dass Daten abfliessen, entweder durch prompt injection (Biblionetz:w03423) oder klassisches Hacking und Malware)
Was läuft bei mir derzeit?
Ich baue derzeit einen Mac Mini 4 mit 16 GB zu einem kleinen Hausserver aus, auf dem verschiedene Dienste laufen sollen, unter anderem lokale GMLS.
Lokale GMLS sind derzeit meist nicht ein Stück Software, sondern ein ganzes Puzzle von Einzelkomponenten, die verschiedene Aufgaben übernehmen. (Ich arbeite an einer Grafik, um das konzeptionell schön zu visualisieren).
- Als "Modellprovider" verwende ich derzeit Ollama und LM Studio parallel (weil ich noch nicht weiss, was besser geeignet ist für meine Bedürfnisse)
- Als Modelle nutze ich derzeit (Stand 18.04.26) (und bin völlig überfordert mit der Geheimwissenschaft der Modellwahl...):
- gemma-4-e4b-it
- qwen3.5:9b
- mistral-small:24b
- mistral-3-3b
- Um die Funktion auch auf anderen Computern nutzen zu können, läuft Open Web UI. Zusammen mit dem VPN-Dienst Tailscale ermöglicht mir das, von jedem meiner Geräte von irgendwo auf der Welt auf meine lokalen Dienste zugreifen zu können.
- piper und whisper sind ebenfalls auf dem Gerät installiert, um Text zu Sprache und Sprache zu Text ebenfalls lokal nutzen zu können (unter anderem für die Hausautomatisation).
- Zudem experimentiere ich derzeit mit einer selbst gevibecodeten MCP-Schnittstelle (Biblionetz:w03705) zur lokalen Volltextsuche auf meinem Notebook. Damit möchte ich versuchen, mit begrenzten Computerressourcen meine lokalen Daten einzubinden (so wie z.B. Claude Cowork).
Zwischenfazit
Es ist faszinierend, wie insbesondere gemma-4-e4b-it rasche, rein lokal generierte, deutsche Antworten liefert und sowohl Websuche als auch per MCP lokale Suche mit integrieren kann. Trotzdem ist der Qualitätsunterschied zu serverbasierten Modellen riesig und es fragt sich, wofür ich die lokal verfügbare Qualität - von der ich Anfang 2023 noch total begeistert war bei ChatGPT - tatsächlich würde nutzen wollen (u.a. evtl. für gewisse Automatismen innerhalb des Biblionetzes...).
Primär aber: Ich habe deutlich zu wenig Zeit, um mich mit den Möglichkeiten auseinanderzusetzen, auch wenn ich weiss, dass vieles Versions- und Produktwissen ist, das in wenigen Monaten, wenn nicht Wochen bereits wieder veraltet ist.