Comment Replicate facture
La tarification de Replicate est découplée du modèle spécifique exécuté. Que vous génériez une image avec SDXL ou que vous exécutiez Llama 3, la facturation dépend du niveau de matériel et de la durée d’exécution. Cela leur permet d’héberger des milliers de modèles open source sans avoir besoin d’un plan tarifaire séparé pour chacun.| Matériel | Prix par seconde | Prix par heure |
|---|---|---|
| CPU NVIDIA | $0.000100 | $0.36 |
| GPU NVIDIA T4 | $0.000225 | $0.81 |
| GPU NVIDIA A40 | $0.000575 | $2.07 |
| GPU NVIDIA A40 (Large) | $0.000725 | $2.61 |
| GPU NVIDIA A100 (40GB) | $0.001150 | $4.14 |
| GPU NVIDIA A100 (80GB) | $0.001400 | $5.04 |
- Tarifs spécifiques au matériel : le coût par seconde varie en fonction des ressources de calcul requises. Chaque niveau matériel a un prix différent.
- Modèle purement basé sur l’usage : il n’y a pas de frais mensuels, pas de dépassements et pas de limites. Les utilisateurs sont facturés pour le temps de calcul exact (par ex. « 12,4 secondes sur une A100 ») plutôt que par génération.
- Granularité à la seconde : les fournisseurs cloud traditionnels facturent à l’heure ou à la minute, ce qui engendre du gaspillage pour les tâches de courte durée. La facturation à la seconde élimine cette inefficacité pour les petits tests comme pour les charges de production importantes.
Les démarrages à froid sont également facturables. La première requête vers un modèle prend souvent 10 à 30 secondes pour charger le modèle en mémoire. Ce temps de chargement est facturé au même tarif que le temps d’exécution.
Ce qui le rend unique
- Mesure spécifique au matériel : le même modèle coûte plus cher sur du matériel plus performant. Les utilisateurs choisissent entre rapidité et coût. Un GPU T4 convient aux tâches non sensibles au temps, tandis qu’une A100 gère les applications en temps réel.
- Granularité à la seconde : la facturation est calculée seconde par seconde, de sorte que les utilisateurs ne paient jamais trop pour les tâches courtes.
- Pas d’abonnement : aucun engagement pour commencer. Cela s’adapte infiniment à l’usage, ce qui en fait une solution idéale pour les startups et les développeurs qui expérimentent différents modèles.
- Agnostique au modèle : la logique de facturation reste la même quel que soit le type de tâche (génération d’images, traitement de texte, transcription audio ou synthèse vidéo). Cela permet à la plateforme de prendre en charge un vaste écosystème de modèles sans tables tarifaires complexes.
Construisez cela avec Dodo Payments
Vous pouvez reproduire ce modèle de facturation en utilisant les fonctionnalités de facturation basée sur l’usage de Dodo Payments. L’essentiel est d’utiliser plusieurs compteurs pour suivre les différents niveaux matériels et de les associer à un seul produit.Create Usage Meters (One Per Hardware Class)
Créez des compteurs séparés pour chaque niveau matériel. Chaque type de matériel a un coût par seconde différent, donc la mesure indépendante permet à Dodo de tarifer chaque niveau différemment et de proposer une facturation détaillée.
L’agrégation
| Nom du compteur | Nom de l’événement | Agrégation | Propriété |
|---|---|---|---|
| CPU Compute | compute.cpu | Sum | execution_seconds |
| GPU T4 Compute | compute.gpu_t4 | Sum | execution_seconds |
| GPU A40 Compute | compute.gpu_a40 | Sum | execution_seconds |
| GPU A40 Large Compute | compute.gpu_a40_large | Sum | execution_seconds |
| GPU A100 40GB Compute | compute.gpu_a100_40 | Sum | execution_seconds |
| GPU A100 80GB Compute | compute.gpu_a100_80 | Sum | execution_seconds |
Sum sur la propriété execution_seconds calcule le temps total de calcul par niveau matériel pendant la période de facturation.Create a Usage-Based Product
Créez un nouveau produit dans le tableau de bord Dodo Payments :
Réglez le Seuil gratuit à 0 pour tous les compteurs. Chaque seconde d’exécution est facturable.
- Type de tarification : Facturation basée sur l’usage
- Prix de base : $0/mois (pas de frais d’abonnement)
- Fréquence de facturation : Mensuelle
| Compteur | Prix par unité (par seconde) |
|---|---|
| compute.cpu | $0.000100 |
| compute.gpu_t4 | $0.000225 |
| compute.gpu_a40 | $0.000575 |
| compute.gpu_a40_large | $0.000725 |
| compute.gpu_a100_40 | $0.001150 |
| compute.gpu_a100_80 | $0.001400 |
Send Usage Events
Envoyez des événements d’usage à Dodo chaque fois qu’une exécution de modèle est terminée. Incluez un
event_id unique pour chaque prédiction afin d’assurer l’idempotence.Measure Execution Time Precisely
Encapsulez l’exécution du modèle avec un chronométrage précis en utilisant
performance.now(). Arrondissez à la dixième de seconde la plus proche pour la facturation.Accélérez avec le Time Range Ingestion Blueprint
Le Time Range Ingestion Blueprint simplifie le suivi du calcul à la seconde. Créez une instance d’ingestion par niveau matériel et utiliseztrackTimeRange pour des soumissions d’événements plus propres.
Estimation des coûts pour les utilisateurs
Comme la facturation basée sur l’usage peut être imprévisible, fournissez aux utilisateurs des estimations de coûts avant qu’ils n’exécutent un modèle. Cela réduit les surprises sur les factures et renforce la confiance.Exemple de calculs de coûts
| Modèle | Matériel | Temps moyen | Coût par exécution |
|---|---|---|---|
| SDXL (image) | A100 80GB | ~8 s | ~$0.0112 |
| Llama 3 (texte) | A100 40GB | ~3 s | ~$0.0035 |
| Whisper (audio) | GPU T4 | ~15 s | ~$0.0034 |
Construction d’un calculateur de coûts
Entreprise : Capacité réservée
Pour les clients entreprises qui ont besoin d’une disponibilité garantie et sans démarrages à froid, Replicate propose des « instances privées » à un tarif horaire fixe. Avec Dodo Payments, modélisez cela comme un produit d’abonnement :- Type de produit : Abonnement
- Prix : Prix mensuel fixe (par ex. « Instance A100 réservée - $500/mois »)
- Cycle de facturation : Mensuel
Avancé : Mesure par heartbeat
Pour les tâches qui durent plusieurs minutes ou heures, envoyer un seul événement à la fin est risqué. Si le processus plante, vous perdez les données d’usage. Une meilleure approche consiste à envoyer des événements d’usage toutes les 30 à 60 secondes pendant l’exécution.Principales fonctionnalités Dodo utilisées
Usage-Based Billing
Configurez des produits qui facturent selon la consommation.
Meters
Définissez les métriques que vous souhaitez suivre et facturer.
Event Ingestion
Envoyez les données d’usage à Dodo en temps réel.
Subscriptions
Gérez la facturation récurrente pour la capacité réservée et les plans entreprises.
Time Range Blueprint
Suivi du calcul à la seconde avec des assistants de durée.
Key Dodo Features Used
Usage-Based Billing
Set up products that bill based on consumption.
Meters
Define the metrics you want to track and bill for.
Event Ingestion
Send usage data to Dodo in real-time.
Subscriptions
Manage recurring billing for reserved capacity and enterprise plans.
Time Range Blueprint
Per-second compute tracking with duration helpers.