GPUStack

Hochschulinterne "LLM-as-a-Service"-Plattform mit der KI-Sprachmodelle einfach per standardisierter API für Applikationen, Agenten, Chats oder Datenpipelines genutzt werden können.

GPUStack management

Abbildung: gpustack.ai

Mit GPUStack bieten wir Forschenden einen zentralen, niederschwelligen Zugang zu leistungsstarken Open-Weight-Modellen für KI-gestützte Anwendungen. Diese Instanz bündelt die am Universitätsrechenzentrum verfügbare GPU-Rechenleistung und stellt sie als performante, skalierbare KI-Engine bereit. Forschende und Studierende haben so die Möglichkeit komplexe Sprach- und Analysemodelle (LLMs) flexibel für ihre Arbeit zu nutzen, ohne sich mit der Administration von Servern oder dem Management von Grafikkarten-Ressourcen auseinandersetzen zu müssen.

Dienst-URLExterner Link (Nutzung mit Uni-Login über sso.hs-itz.de)
DokumentationExterner Link

Funktionalitäten

Unsere GPUStack-Instanz stellt permanent verschiedene KI-Sprachmodelle (Large Language Models, LLMs) bereit und kann als lokale, performante und datenschutzkonforme Alternative zu OpenAI, Microsoft Azure oder Anthropic dienen. Eine intuitive Benutzeroberfläche listet alle aktuell deployten Modelle auf und ermöglicht deren direkte Nutzung, wodurch der technische Overhead für das wissenschaftliche Personal minimiert wird.

Die folgenden Dingen können Sie mit dieser Instanz tun:

Nahtlose Integration in bestehende Tools (OpenAI-Drop-in): Dank standardmäßig OpenAI-kompatibler APIs lässt sich die GPUStack-Instanz ohne Code-Anpassungen direkt in bestehende Skripte, Jupyter Notebooks oder Frameworks (wie LangChain, LlamaIndex, Dify) einbinden. Sie müssen im Code lediglich die OpenAI-URL gegen die GPUStack-Adresse und den eigenen API-Key austauschen, um die permanent bereitgestellten LLMs sofort in ihren KI-Pipelines zu nutzen.
Betrieb von KI-Assistenten und Chat-Oberflächen: Da die LLMs permanent einsatzbereit sind, können Sie mühelos eigene maßgeschneiderte Benutzeroberflächen anbinden. Im Entwicklungsbereich ermöglichen Plugins wie Continue.dev oder Cody die Integration von KI-Assistenten für die Code-Autovervollständigung direkt in VS Code oder JetBrains-IDEs. Für den allgemeinen Einsatz lassen sich datenschutzkonforme Chat-Anwendungen über Open-Source-Oberflächen wie Open WebUI, LibreChat oder NextChat realisieren, die im Hintergrund transparent auf die internen GPUStack-Modelle zugreifen.
RAG-Systeme aufbauen (Wissensmanagement): Dank der bereitgestellten LLMs und Embedding-Modelle können Sie eigene Retrieval-Augmented Generation (RAG)-Systeme aufbauen, um internes Wissen abzufragen. So lassen sich PDFs, Wikis (z. B. Confluence/Notion), SharePoint oder Datenbanken nahtlos anbinden. Da alle Daten innerhalb der hochschuleigenen GPUStack-Instanz verbleiben, können selbst hochsensible Forschungs- und Verwaltungsdokumente absolut datenschutzkonform analysiert werden.
Automatisierung und Batch-Verarbeitung: Dank des effizienten Request-Bundlings und der dynamischen Lastverteilung auf die vorhandenen GPUs ist die Instanz optimal für die Automatisierung datenintensiver Hintergrundprozesse ausgelegt. Sie können so unstrukturierte Datenmengen – wie Tausende E-Mails oder Support-Tickets – automatisiert analysieren und in strukturierte JSON-Formate überführen. Ebenso effizient lassen sich großflächige Textgenerierungen, Übersetzungen oder Zusammenfassungen im Batch-Verfahren realisieren.

Information

Aktuell befindet sich GPUStack in einer Test- bzw. Aufbauphase und wir freuen uns über ihr Feedback für Verbesserungen. Es ist geplant diese Instanz in einen regulären URZ- bzw. HS-ITZ-Dienst zu überführen. Ihre Daten bleiben in jedem Fall lokal auf universitären Servern.