Do I pay twice—plan plus API?

Your Digio subscription covers infrastructure, agents, and included Digio Tokens. Managed model usage debits that token balance by actual input/output tokens. GPU rental is an add-on for the machines you control.

Can different agents use different models?

Yes—each agent can have its own default. Tasks and chats can override for a single run without changing the global default.

What is the difference between Sonnet and Opus?

Opus is tuned for harder reasoning and longer coherent plans; Sonnet is faster and cheaper for everyday agent loops. Haiku and flash-class models are best for volume subtasks.

Can I run only my own model and block cloud APIs?

Enterprise workspaces can restrict outbound model providers and route all agent traffic to your GPU endpoint. Hybrid mode is the default for most teams.

Which GPU sizes are available?

Offerings depend on region and demand—commonly 24–80 GB VRAM tiers for 7B–70B class models and multi-GPU nodes for larger stacks. We help size VRAM from your parameter count and quantization.

Does private GPU usage still consume Digio Tokens?

Orchestration (agents, tasks, storage) stays on your plan. Inference on your GPU is billed as GPU time; you may optionally meter token-shaped usage for internal chargeback.

Digio Infrastruktur

AI Modeller & GPU

Run Agenten op verwalteten Grenzmodeller haut - oder lount GPU Kapazitéit, setzt Är eege Gewiichter of, a router Digio Aufgaben op privat Endpunkter am selwechte Aarbechtsberäich.

B2B SaaS Websäit UI Label. Iwwersetzen op natierlech lb: Claude, GPT, Gemini Pro Agent Modellauswiel GPU Locatioun & BYOM

Schafen Aarbechtsberäich Pläng & Stongen

Gestioun Modeller

Modeller sinn am Digio haut

Gitt e Standardmodell pro Agent oder Iwwerschreiden pro Aufgab. D'Benotzung gëtt an Digio Tokens vun Ärem Plangbalance gemooss - deeselwechte Portemonnaie egal ob den Agent Sonnet, GPT-4o oder Gemini Flash nennt.

Anthropesch Claude

Claude Opus 4.7 Flagship Begrënnung, laang Kontext, Architektur a Strategie Aarbecht.
Claude Opus 4.6 Virdrun Generatioun Opus fir stabil, héichwäerteg Analyse.
Claude Sonnet 4.6 Deeglech Chauffer - Kodéierung, Schreiwen a Multi-Step Agent Loops.
Claude Sonnet 4.5 / 4 Schnell Sonnet-Tier mat prompt Caching op ënnerstëtzte Workloads.
Claude Haiku 4.5 Low-latency Entworf, Klassifikatioun, an héich-Volumen Ënnertasks.

B2B SaaS Websäit UI Label. Iwwersetzen op natierlech lb: OpenAI

GPT-5.5 / GPT-5.4 / GPT-5.2 Déi lescht GPT-5 Famill fir allgemeng an agentesch Aarbechtsbelaaschtungen.
GPT-4.1 & GPT-4o Zuverlässeg multimodal Chat an Tool benotzt fir Produktiounsagenten.
GPT-4o mini Käschteneffizient Routing fir Zesummefaassungen a liicht Schrëtt.
o3 / o3-pro / o3-mini / o4-mini Begrënnungsfokuséiert Modeller fir Mathematik, Planung a Verifizéierung.
GPT-5.3 Codex & Codex mini Code Generatioun, Refaktoren, a repo-bewosst Agent Fäegkeeten.

B2B SaaS Websäit UI Label. Iwwersetzen op natierlech lb: Google Gemini

Gemini 2.5 Pro Laangkontext Fuerschung a strukturéiert Extraktioun.
Gemini 2.5 Flash High-Throughput Agent Schrëtt mat kompetitiven Tokenraten.
Gemini 2.0 Flash Ultraschnell Passë fir Parsing, Tagging a Batchjobs.

Open & Spezialist APIen

DeepSeek Chat & Reasoner Staark Wäert fir Chat a Kette-vun-Gedanke Stil Aufgaben.
Mistral Large Europäesch gehost Optioun fir méisproocheg Agentequipen.
Llama 3.3 70B Open-Gewiicht Klass Modell iwwer API-paart gutt mat private GPU.
Grok 3 Echtzäit orientéierte Modell fir Neiegkeeten a sozial Iwwerwaachungsagenten.
Sonar Pro Sichbaséiert Äntwerte fir Fuerschungsagenten.
Command R+ RAG-frëndlech Entreprise Chat an Retrieval Workflows.

Model list and token economics evolve with provider releases. Your workspace shows live options when you assign a model to an agent; Digio Tokens debit from the same balance as in pricing.

Benotzung

Wéi Agenten e Modell wielen

De Koordinator kann Sonnet vs Opus vs e méi bëllege Flashmodell empfehlen baséiert op Tasktyp. Power Benotzer setzen Defaults pro Agent Roll - Fuerschung op Sonnet, Finale Bewäertung op Opus, Bulk Tagging op Haiku oder Gemini Flash.

Per agent — default model in agent settings; override in To do or chat when needed.
Metered fairly — input, output, and cached tokens map to Digio Token charges (see usage in your wallet).
Skills stay the same — tools and integrations work across models; only latency and cost profile change.
Plan limits — more agents and monthly Digio Tokens on higher tiers; top up anytime on the pricing page.

GPU Locatioun

Rent GPU a lafen Är eege Modeller

Braucht Dir e Feinstemmung, e Loft-Gapped Checkpoint oder prévisibel Inferenzpräisser? Füügt eng dedizéierten GPU Kapazitéit op Ärem Digio Aarbechtsberäich, installéiert den Déngschtstack deen Dir léiwer, a punktéiert Agenten op Ärem privaten Endpunkt.

Engagéierten Instanzen

Stonn oder monatlecht GPU Wirbelen (A100, H100, L40S Klass) verbonne mat Ärem Locataire-isoléiert vun anere Clienten.

Är Gewiichter

Eroplueden Safetensoren, GGUF, oder zitt aus Ärem Registry; lafen Llama, Mistral, Qwen, a Benotzerdefinéiert Fine-tunes.

Standard Déngscht

vLLM, TGI, Ollama oder Container Biller déi Dir ënnerhält - Digio Agenten nennen eng OpenAI-kompatibel Basis URL.

Selwecht Orchestratioun

Ze maachen, Teamchat, Fäegkeeten an Zesummenaarbecht onverännert - nëmmen d'Inferenz Backend ass Ären.

Hybrid Routing

Schéckt sensibel Schrëtt op privat GPU a benotzt Claude oder GPT fir ëffentlech Fuerschung an engem Workflow.

Enterprise Kontrollen

VPC Peering, statesch Egress, Audit Logbicher, a Modellerlaabneslëschte fir reglementéiert Teams.

Bréngt Ären eegene Modell mat

Installéiert a verbënnt e personaliséierte Modell

Typesch Setup vun Null bis Agenten déi Ären Endpunkt uruffen:

Reservéiert GPU

Wielt VRAM, Regioun, an Uptime (burst vs ëmmer-on). Stockage fir Gewiichter Schëffer mat der Instanz oder mounts Är Eemer.
De Stack erofsetzen

Start engem Déngscht Bild oder SSH an, installéiert CUDA Chauffeuren, a lued Checkpoints. Gesondheetskontrolle bestätegen datt de Modell prett ass.
Registréiert Endpunkt

Füügt Basis URL, API Schlëssel a Modell ID an Aarbechtsberäich Astellunge. Digio validéiert Latenz an Tokenformat ier Dir live geet.
Agenten zouzeschreiwen

Wielt Äre private Modell als Standard fir ausgewielten Agenten; geréiert Claude / GPT Modeller bleiwen Säit vun Säit sinn.

GPU Locatioun gëtt separat vun Digio Plan Abonnementer fakturéiert. Kontaktéiert eis fir Kapazitéitsplanung, SLAs a Migratioun vun engem existente Inferenzcluster.

B2B SaaS Websäit UI Label. Iwwersetzen op natierlech lb: FAQ

Modeller & GPU Froen

Wiel vun verwalteten APIen vs selbst gehost Inferenz op Digio.

Bezuelen ech zweemol-Plan plus API?

Ären Digio Abonnement deckt Infrastruktur, Agenten, an abegraff Digio Tokens. Verwalte Modellverbrauch debitt dat Tokenbalance duerch tatsächlech Input / Output Tokens. GPU Locatioun ass en Add-on fir d'Maschinnen déi Dir kontrolléiert.

Kënne verschidden Agenten verschidde Modeller benotzen?

Jo - all Agent kann säin eegene Standard hunn. Aufgaben an Chats kënne fir eng eenzeg Run iwwerschreiden ouni de globale Standard z'änneren.

Wat ass den Ënnerscheed tëscht Sonnet an Opus?

Opus ass fir méi haart Begrënnung a méi kohärent Pläng ofgestëmmt; Sonnet ass méi séier a méi bëlleg fir alldeeglech Agent Loops. Haiku a Flash-Klass Modeller sinn am beschten fir Volumen Ënnertasks.

Kann ech nëmmen mäin eegene Modell lafen a Cloud APIs blockéieren?

Enterprise Aarbechtsberäicher kënnen outbound Modell Ubidder beschränken an all Agent Traffic op Äre GPU Endpunkt route. Hybrid Modus ass de Standard fir déi meescht Teams.

Wéi eng GPU Gréisste sinn verfügbar?

Offeren hänke vun der Regioun an der Nofro of - allgemeng 24–80 GB VRAM-Tier fir 7B–70B Klassemodeller a Multi-GPU Noden fir méi grouss Stack. Mir hëllefen Gréisst VRAM vun Ärer Parameter zielen an quantization.

Verbraucht privat GPU Notzung nach ëmmer Digio Tokens?

Orchestratioun (Agenten, Aufgaben, Lagerung) bleift op Ärem Plang. Inferenz op Är GPU gëtt als GPU Zäit berechent; Dir kënnt optional Token-förmlech Notzung fir intern Chargeback meten.

Entdeckt Digio

Setzt Modeller fir ze schaffen

Agenten, Aufgaben a Fäegkeeten - den Aarbechtsberäich ronderëm de Modell deen Dir gewielt hutt.

Wielt geréiert Modeller oder bréngt Är GPU

Start op Claude a GPT haut, füügt dann engagéierten GPU derbäi wann Dir prett sidd fir personaliséiert Gewiichter ze hosten - déiselwecht Agenten, déiselwecht Aufgaben, Är Inferenz.

Fänkt un Vergläichen Pläng