Come fattura Replicate
Il pricing di Replicate è scollegato dal modello specifico in esecuzione. Che tu stia generando un’immagine con SDXL o eseguendo Llama 3, la fatturazione è determinata dal livello hardware e dalla durata dell’esecuzione. Questo permette loro di ospitare migliaia di modelli open source senza necessità di piani tariffari separati per ciascuno.| Hardware | Prezzo al secondo | Prezzo all’ora |
|---|---|---|
| NVIDIA CPU | $0.000100 | $0.36 |
| NVIDIA T4 GPU | $0.000225 | $0.81 |
| NVIDIA A40 GPU | $0.000575 | $2.07 |
| NVIDIA A40 (Large) GPU | $0.000725 | $2.61 |
| NVIDIA A100 (40GB) GPU | $0.001150 | $4.14 |
| NVIDIA A100 (80GB) GPU | $0.001400 | $5.04 |
- Tariffe specifiche per hardware: il costo al secondo varia in base alle risorse di calcolo richieste. Ogni livello hardware ha un diverso punto di prezzo.
- Modello puramente basato sull’utilizzo: non ci sono costi mensili, sovrapprezzi o limiti. Gli utenti vengono fatturati per il tempo di calcolo effettivo (ad es. “12,4 secondi su un A100”) piuttosto che per generazione.
- Granularità al secondo: i tradizionali provider cloud fatturano per ora o minuto, provocando sprechi nei task di breve durata. La fatturazione al secondo elimina questa inefficienza sia per piccoli esperimenti sia per carichi di produzione ampi.
Anche gli avvii a freddo sono fatturabili. La prima richiesta a un modello spesso impiega 10-30 secondi per caricare il modello in memoria. Questo tempo di caricamento viene fatturato allo stesso tasso del tempo di esecuzione.
Cosa lo rende unico
- Misurazione specifica per hardware: lo stesso modello costa di più su hardware superiore. Gli utenti possono scegliere tra velocità e costo. Una GPU T4 funziona per attività non sensibili al tempo, mentre un A100 gestisce applicazioni in tempo reale.
- Granularità al secondo: la fatturazione viene calcolata al secondo, quindi gli utenti non pagano mai in eccesso per task brevi.
- Nessun abbonamento: nessun impegno iniziale. Si scala infinitamente con l’utilizzo, rendendolo ideale per startup e sviluppatori che sperimentano diversi modelli.
- Agnotismo del modello: la logica di fatturazione resta la stessa indipendentemente dal tipo di attività (generazione di immagini, elaborazione testi, trascrizione audio o sintesi video). Questo permette alla piattaforma di supportare un vasto ecosistema di modelli senza tabelle tariffarie complesse.
Costruisci questo con Dodo Payments
Puoi replicare questo modello di fatturazione usando le funzionalità di fatturazione basata sull’utilizzo di Dodo Payments. La chiave è utilizzare più metriche per tenere traccia dei diversi livelli hardware e collegarle a un singolo prodotto.Create Usage Meters (One Per Hardware Class)
Crea metriche separate per ogni livello hardware. Ogni tipo di hardware ha un diverso costo al secondo, quindi la misurazione indipendente permette a Dodo di segmentare ciascun livello e offrire fatturazione dettagliata.
L’aggregazione
| Nome metrica | Nome evento | Aggregazione | Proprietà |
|---|---|---|---|
| CPU Compute | compute.cpu | Sum | execution_seconds |
| GPU T4 Compute | compute.gpu_t4 | Sum | execution_seconds |
| GPU A40 Compute | compute.gpu_a40 | Sum | execution_seconds |
| GPU A40 Large Compute | compute.gpu_a40_large | Sum | execution_seconds |
| GPU A100 40GB Compute | compute.gpu_a100_40 | Sum | execution_seconds |
| GPU A100 80GB Compute | compute.gpu_a100_80 | Sum | execution_seconds |
Sum sulla proprietà execution_seconds calcola il tempo totale di calcolo per ciascun livello hardware nel periodo di fatturazione.Create a Usage-Based Product
Crea un nuovo prodotto nella dashboard di Dodo Payments:
Imposta la Soglia gratuita a 0 per tutte le metriche. Ogni secondo di esecuzione è fatturabile.
- Tipo di pricing: Usage Based Billing
- Prezzo base: $0/mese (nessuna tariffa di abbonamento)
- Frequenza di fatturazione: Mensile
| Metrica | Prezzo per unità (al secondo) |
|---|---|
| compute.cpu | $0.000100 |
| compute.gpu_t4 | $0.000225 |
| compute.gpu_a40 | $0.000575 |
| compute.gpu_a40_large | $0.000725 |
| compute.gpu_a100_40 | $0.001150 |
| compute.gpu_a100_80 | $0.001400 |
Send Usage Events
Invia eventi di utilizzo a Dodo ogni volta che un’esecuzione di modello è completata. Includi un unico
event_id per ogni previsione per garantire l’idempotenza.Measure Execution Time Precisely
Avvolgi l’esecuzione del modello con un timing preciso usando
performance.now(). Approssima al decimo di secondo più vicino per la fatturazione.Accelera con il blueprint Time Range Ingestion
Il Time Range Ingestion Blueprint semplifica il tracciamento del calcolo al secondo. Crea un’istanza di ingestion per ogni livello hardware e usatrackTimeRange per inviare eventi in modo più ordinato.
Stima dei costi per gli utenti
Poiché la fatturazione basata sull’utilizzo può essere imprevedibile, fornisci agli utenti stime dei costi prima di avviare un modello. Questo riduce fatture inattese e costruisce fiducia.Esempi di calcolo dei costi
| Modello | Hardware | Tempo medio | Costo per esecuzione |
|---|---|---|---|
| SDXL (immagine) | A100 80GB | ~8 sec | ~$0.0112 |
| Llama 3 (testo) | A100 40GB | ~3 sec | ~$0.0035 |
| Whisper (audio) | GPU T4 | ~15 sec | ~$0.0034 |
Costruire un calcolatore dei costi
Enterprise: Capacità riservata
Per i clienti enterprise che necessitano di disponibilità garantita e nessun cold start, Replicate offre “Private Instances” a tariffa oraria fissa. Con Dodo Payments, modellalo come prodotto in abbonamento:- Tipo di prodotto: Subscription
- Prezzo: Prezzo mensile fisso (es. “Reserved A100 Instance - $500/month”)
- Ciclo di fatturazione: Mensile
Avanzato: metering heartbeat
Per task che durano diversi minuti o ore, inviare un singolo evento alla fine è rischioso. Se il processo si arresta in modo anomalo, perdi i dati di utilizzo. Un approccio migliore è inviare eventi di utilizzo ogni 30-60 secondi durante l’esecuzione.Principali funzionalità Dodo utilizzate
Usage-Based Billing
Configura prodotti che fatturano in base al consumo.
Meters
Definisci le metriche che desideri monitorare e fatturare.
Event Ingestion
Invia dati di utilizzo a Dodo in tempo reale.
Subscriptions
Gestisci la fatturazione ricorrente per capacità riservata e piani enterprise.
Time Range Blueprint
Tracciamento del calcolo al secondo con helper per la durata.