Hur Replikate fakturerar
Replikates prissättning är frikopplad från den specifika modell som körs. Oavsett om du genererar en bild med SDXL eller kör Llama 3 bestäms faktureringen av hårdvarunivån och verkställningens varaktighet. Detta låter dem vara värd för tusentals open-source modeller utan att behöva en separat prissättningsplan för varje.| Hårdvara | Pris per sekund | Pris per timme |
|---|---|---|
| NVIDIA CPU | $0.000100 | $0.36 |
| NVIDIA T4 GPU | $0.000225 | $0.81 |
| NVIDIA A40 GPU | $0.000575 | $2.07 |
| NVIDIA A40 (Large) GPU | $0.000725 | $2.61 |
| NVIDIA A100 (40GB) GPU | $0.001150 | $4.14 |
| NVIDIA A100 (80GB) GPU | $0.001400 | $5.04 |
- Hårdvaruspecifika priser: Kostnaden per sekund varierar beroende på de datorkraftresurser som krävs. Varje hårdvarunivå har en annan prisnivå.
- Rena användningsbaserade modell: Det finns inga månatliga avgifter, inga överbelastningar och inga begränsningar. Användare debiteras för exakt beräkningstid (t.ex. “12.4 sekunder på en A100”) istället för per-generation.
- Sekund-granularitet: Traditionella molnleverantörer fakturerar per timme eller minut, vilket leder till slöseri på kortlivade uppgifter. Fakturering per sekund eliminerar denna ineffektivitet för både små experiment och stora produktionsarbetsbelastningar.
Kalla startar är också fakturerbara. Den första begäran till en modell tar ofta 10-30 sekunder att ladda modellen i minnet. Denna laddningstid faktureras till samma pris som exekveringstiden.
Vad som gör den unik
- Hårdvaruspecifik mätning: Samma modell kostar mer på bättre hårdvara. Användare väljer mellan hastighet och kostnad. En T4 GPU fungerar för icke-tidssensitiva uppgifter, medan en A100 hanterar realtidsapplikationer.
- Sekund-granularitet: Fakturering beräknas per sekund, så användare överbelastas aldrig för korta uppgifter.
- Ingen prenumeration: Noll åtagande att starta. Den skalar oändligt med användning, vilket gör den idealisk för startups och utvecklare som experimenterar med olika modeller.
- Modell-agnostisk: Faktureringslogiken förblir densamma oavsett uppgiftstyp (bildgenerering, textbearbetning, ljudtranskription eller videosyntes). Detta gör att plattformen kan stödja ett stort modelekosystem utan komplexa prislistor.
Bygga detta med Dodo Payments
Du kan replikera denna faktureringsmodell genom att använda Dodo Payments användningsbaserade faktureringsfunktioner. Nyckeln är att använda flera mätare för att spåra olika hårdvarunivåer och fästa dem på en enda produkt.Create Usage Meters (One Per Hardware Class)
Skapa separata mätare för varje hårdvarunivå. Varje hårdvarutyp har en annan kostnad per sekund, så oberoende mätning låter Dodo prissätta varje nivå annorlunda och ge specificerad fakturering.
Aggregationen
| Mätarnamn | Händelsenamn | Aggregation | Egenskap |
|---|---|---|---|
| CPU Compute | compute.cpu | Sum | execution_seconds |
| GPU T4 Compute | compute.gpu_t4 | Sum | execution_seconds |
| GPU A40 Compute | compute.gpu_a40 | Sum | execution_seconds |
| GPU A40 Large Compute | compute.gpu_a40_large | Sum | execution_seconds |
| GPU A100 40GB Compute | compute.gpu_a100_40 | Sum | execution_seconds |
| GPU A100 80GB Compute | compute.gpu_a100_80 | Sum | execution_seconds |
Sum på egenskapen execution_seconds beräknar den totala beräknings tiden per hårdvarunivå under faktureringsperioden.Create a Usage-Based Product
Skapa en ny produkt i Dodo Payments instrumentpanel:
Sätt Gratis Tröskel till 0 för alla mätare. Varje sekund av exekvering är fakturerbar.
- Pristyp: Användningsbaserad fakturering
- Baspris: $0/månad (ingen prenumerationsavgift)
- Faktureringsfrekvens: Månatligen
| Mätare | Pris Per Enhet (per sekund) |
|---|---|
| compute.cpu | $0.000100 |
| compute.gpu_t4 | $0.000225 |
| compute.gpu_a40 | $0.000575 |
| compute.gpu_a40_large | $0.000725 |
| compute.gpu_a100_40 | $0.001150 |
| compute.gpu_a100_80 | $0.001400 |
Send Usage Events
Skicka användningshändelser till Dodo när en modellkörning är klar. Inkludera en unik
event_id för varje förutsägelse för att säkerställa idempotens.Measure Execution Time Precisely
Omslut din modellkörning med exakt timing med
performance.now(). Avrunda till närmaste tiondels sekund för fakturering.Accelerera med den tidsintervallbaserade Ingestion Blueprint
Time Range Ingestion Blueprint förenklar sekundbästa datorspårning. Skapa en ingestion-instans per hårdvarunivå och användtrackTimeRange för förenklad händelseinlämning.
Kostnadsestimering för användare
Eftersom användningsbaserad fakturering kan vara oförutsägbar, ge användarna kostnadssammanställningar innan de kör en modell. Detta minskar överraskningsräkningar och bygger förtroende.Exempel på kostnadsberäkningar
| Modell | Hårdvara | Genomsnittlig tid | Kostnad per körning |
|---|---|---|---|
| SDXL (bild) | A100 80GB | ~8 sek | ~$0.0112 |
| Llama 3 (text) | A100 40GB | ~3 sek | ~$0.0035 |
| Whisper (ljud) | GPU T4 | ~15 sek | ~$0.0034 |
Bygga en kostnadskalkylator
CODE_PLACEHOLDER_ebff9d93a66fbf_ENDFöretag: Reserverad kapacitet
För företagskunder som behöver garanterad tillgänglighet och inga kalla starter, erbjuder Replikate “Privata Instanser” till en fast timkostnad. Med Dodo Payments modellerar du detta som en prenumerationsprodukt:- Produkttyp: Prenumeration
- Pris: Fast månadspris (t.ex. “Reserverad A100 Instans - $500/månad”)
- Faktureringscykel: Månatligen
Avancerat: Hjärtklappningsmätning
För uppgifter som tar flera minuter eller timmar är det riskabelt att skicka en enda händelse i slutet. Om processen kraschar förlorar du användningsdata. Ett bättre tillvägagångssätt är att skicka användningshändelser var 30-60 sekunder under exekvering.Viktiga Dodo-funktioner som används
Usage-Based Billing
Ställ in produkter som fakturerar baserat på konsumtion.
Meters
Definiera de mätvärden du vill följa upp och fakturera för.
Event Ingestion
Skicka användningsdata till Dodo i realtid.
Subscriptions
Hantera återkommande fakturering för reserverad kapacitet och företagsplaner.
Time Range Blueprint
Sekundbaserad dator spårning med tidslängdshjälpmedel.