lokale KI mit Spracherkennung

lokale KI mit Spracherkennung

Ich muss eingestehen, dies „vernünftig“ zum laufen zu bekommen war wirklich … komplizierter als gedacht.

Eigentlich – KI aufsetzen – ollama und dann sollte es laufen.
Aber hier muss man auch ein gutes KI-Model finden, welches auch gut und schnell antwortet und auch gut in den vorhandenen Grafikspeicher passt.
Hier hab ich bisher immer das GPT-OSS benutzt – das war ganz okay – hat aber auch manchmal unschöne Fehler gemacht.
Daher hatte ich mir jetzt etwas mehr Grafikspeicher gegönnt 24 GB und ein größeres Modell qwen3:30b-a3b-instruct-2507-q4_K_M genutzt – wirklich schnell und gut.
Mit schnell meine ich statt 10-20Sek. -> 3-4 Sekunden Antwortzeit…
Und das obwohl, dass Modell, wenn man es im Grafikspeicher lässt, super schnell antwortet…
Woran lag also die „restliche“ Verzögerung…
SpeechToText…klar Whisper lief noch nicht auf der GPU.
Und das ist auch das zweite Qualitätsgate – oder besser Fehlergate 🙂
Also Whisper mit dem kleinen „Sprachmodell“…. das geht, aber geht auch besser.

Die Lösung klingt einfach, schwupp, auch auf die GPU und dann aber auch das große Sprachmodell large-v3 für die gute Qualität.
Das läuft super, aber auch hier gab es wieder Stolpersteine.
Hat man nur eine GPU und den Speicher komplett ausgenutzt, müssten die Modelle immer abwechselnd geladen werden – das bringt dann natürlich rein gar nix.

Ich hatte meinen „neuen“ Serverrechner gleich als GPU-Monster konfiguriert, so dass ich meine alte Grafikkarte mit 12 GB auch noch einbauen konnte – allerdings gab es hier dann noch Probleme mit den Stromanschlüssen – neu Stecker vom Netzteil und alte der Grafikkarte (hab mir natürlich Vorgängermodelle gekauft….) Mein Tipp, kauft euch Netzteile ohne Kabelpeitsche mit steckbaren Steckern – ich dachte das wäre nur wegen design und hatte darauf verzichtet.
Aber genau für den Anwendungscase, kann man dann das passende Kabel nachkaufen.
So musste ich jetzt einen recht seltenen Adapter finden…joa läuft auch 🙂

Okay, endlich beide GPUs am laufen und passend verteilt… war es irgendwie super schwierig mein whisperImage unter Docker und Unraid zum laufen zu bringen.

Aber das macht es jetzt mit Bravour.
Wirklich schön ein lokaler, schneller KI-Agent.
Leider mit den zwei GPUs auch schon eine kleine Investition und laufender Stromverbrauch – auch wenn die Karten in den idle gehen – brauchen die noch ihre 20-40 Watt. Grob 100€ im Jahr, aber dank Solar kommt das meiste eh grün vom Dach 🙂

Mir war/ist es das Wert – alles lokal 🙂
Perfekt um damit dann demnächst in die erweiterten UseCases zum Beispiel RAG über Paperless einzusteigen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert