Wie Replicate abrechnet
Die Preisgestaltung von Replicate ist von dem spezifischen Modell entkoppelt, das ausgeführt wird. Ob du ein Bild mit SDXL generierst oder Llama 3 ausführst, die Abrechnung richtet sich nach der Hardware-Stufe und der Ausführungsdauer. Das erlaubt ihnen, Tausende Open-Source-Modelle zu hosten, ohne für jedes einen eigenen Preisplan zu benötigen.| Hardware | Preis pro Sekunde | Preis pro Stunde |
|---|---|---|
| NVIDIA CPU | $0.000100 | $0.36 |
| NVIDIA T4 GPU | $0.000225 | $0.81 |
| NVIDIA A40 GPU | $0.000575 | $2.07 |
| NVIDIA A40 (Large) GPU | $0.000725 | $2.61 |
| NVIDIA A100 (40GB) GPU | $0.001150 | $4.14 |
| NVIDIA A100 (80GB) GPU | $0.001400 | $5.04 |
- Hardware-spezifische Preise: Die Kosten pro Sekunde variieren je nach benötigten Rechenressourcen. Jede Hardware-Stufe hat einen anderen Preis.
- Reines nutzungsbasiertes Modell: Es gibt keine monatlichen Gebühren, keine Zuschläge und keine Limits. Benutzer werden für die genaue Rechenzeit (z. B. „12,4 Sekunden auf einer A100“) statt pro Generierung abgerechnet.
- Pro-Sekunde-Granularität: Traditionelle Cloud-Anbieter berechnen nach Stunde oder Minute, was bei kurzlebigen Aufgaben zu Verschwendung führt. Die Abrechnung pro Sekunde beseitigt diese Ineffizienz sowohl für kleine Experimente als auch für große Produktions-Workloads.
Cold Starts sind ebenfalls abrechenbar. Die erste Anfrage an ein Modell benötigt oft 10-30 Sekunden, um das Modell in den Speicher zu laden. Diese Ladezeit wird zum gleichen Satz wie die Ausführungszeit berechnet.
Was es einzigartig macht
- Hardware-spezifische Messung: Dasselbe Modell kostet auf besserer Hardware mehr. Nutzer wählen zwischen Geschwindigkeit und Kosten. Eine T4-GPU eignet sich für nicht zeitkritische Aufgaben, während eine A100 Echtzeitanwendungen bewältigt.
- Granularität pro Sekunde: Die Abrechnung wird auf die Sekunde berechnet, sodass Nutzer nie für kurze Aufgaben überbezahlen.
- Kein Abonnement: Null Verpflichtung zum Start. Es skaliert unbegrenzt mit der Nutzung, was ideal für Startups und Entwickler ist, die verschiedene Modelle testen.
- Modell-agnostisch: Die Abrechnungslogik bleibt unabhängig vom Aufgabe-Typ (Bildgenerierung, Textverarbeitung, Audiotranskription oder Videosynthese) gleich. Das ermöglicht der Plattform, ein großes Modell-Ökosystem ohne komplexe Preislisten zu unterstützen.
Das mit Dodo Payments nachbauen
Du kannst dieses Abrechnungsmodell mit den nutzungsbasierten Abrechnungsfunktionen von Dodo Payments nachbilden. Entscheidend ist, mehrere Metriken zu verwenden, um unterschiedliche Hardware-Stufen zu verfolgen und mit einem einzigen Produkt zu verknüpfen.Create Usage Meters (One Per Hardware Class)
Erstelle getrennte Metriken für jede Hardware-Stufe. Jeder Hardware-Typ hat unterschiedliche Kosten pro Sekunde, sodass unabhängige Messungen Dodo erlauben, jede Stufe unterschiedlich zu bepreisen und detaillierte Abrechnungen bereitzustellen.
Die
| Meter-Name | Ereignisname | Aggregation | Eigenschaft |
|---|---|---|---|
| CPU Compute | compute.cpu | Summe | execution_seconds |
| GPU T4 Compute | compute.gpu_t4 | Summe | execution_seconds |
| GPU A40 Compute | compute.gpu_a40 | Summe | execution_seconds |
| GPU A40 Large Compute | compute.gpu_a40_large | Summe | execution_seconds |
| GPU A100 40GB Compute | compute.gpu_a100_40 | Summe | execution_seconds |
| GPU A100 80GB Compute | compute.gpu_a100_80 | Summe | execution_seconds |
Sum-Aggregation auf der execution_seconds-Eigenschaft berechnet die gesamte Rechenzeit pro Hardware-Stufe über den Abrechnungszeitraum.Create a Usage-Based Product
Erstelle ein neues Produkt im Dodo Payments Dashboard:
Setze den Freischwellenwert für alle Metriken auf 0. Jede Sekunde Ausführung ist abrechenbar.
- Preistyp: Nutzungsbasierte Abrechnung
- Grundpreis: $0/Monat (keine Abonnementgebühr)
- Abrechnungsfrequenz: Monatlich
| Meter | Preis pro Einheit (pro Sekunde) |
|---|---|
| compute.cpu | $0.000100 |
| compute.gpu_t4 | $0.000225 |
| compute.gpu_a40 | $0.000575 |
| compute.gpu_a40_large | $0.000725 |
| compute.gpu_a100_40 | $0.001150 |
| compute.gpu_a100_80 | $0.001400 |
Send Usage Events
Sende Nutzungsereignisse an Dodo, sobald eine Modellausführung abgeschlossen ist. Füge für jede Vorhersage eine eindeutige
event_id hinzu, um Idempotenz sicherzustellen.Measure Execution Time Precisely
Umgebe deine Modellausführung mit präzisem Timing mithilfe von
performance.now(). Runde für die Abrechnung auf das nächste Zehntel einer Sekunde.Beschleunigen mit dem Time Range Ingestion Blueprint
Der Time Range Ingestion Blueprint vereinfacht das Tracking pro Sekunde. Erstelle eine Ingestion-Instanz pro Hardware-Stufe und verwendetrackTimeRange für sauberere Ereigniseinreichungen.
Kostenabschätzung für Nutzer
Da nutzungsbasierte Abrechnung unvorhersehbar sein kann, gib Nutzern vor dem Modelllauf Kostenschätzungen. Das reduziert unangenehme Überraschungen und schafft Vertrauen.Beispielhafte Kostenberechnungen
| Modell | Hardware | Durchschnittliche Zeit | Kosten pro Lauf |
|---|---|---|---|
| SDXL (Bild) | A100 80GB | ~8 Sek. | ~$0.0112 |
| Llama 3 (Text) | A100 40GB | ~3 Sek. | ~$0.0035 |
| Whisper (Audio) | GPU T4 | ~15 Sek. | ~$0.0034 |
Aufbau eines Kostenrechners
Enterprise: Reservierte Kapazität
Für Unternehmenskunden, die garantierte Verfügbarkeit und keine Cold Starts benötigen, bietet Replicate „Private Instances“ zu einem festen Stundensatz an. Mit Dodo Payments modellierst du das als Abo-Produkt:- Produkttyp: Abonnement
- Preis: Fester monatlicher Preis (z. B. „Reservierte A100-Instanz – $500/Monat“)
- Abrechnungszyklus: Monatlich
Fortgeschritten: Heartbeat-Messung
Für Aufgaben, die mehrere Minuten oder Stunden dauern, ist das Senden eines einzelnen Ereignisses am Ende riskant. Wenn der Prozess abstürzt, gehen die Nutzungsdaten verloren. Eine bessere Methode ist, während der Ausführung alle 30-60 Sekunden Nutzungsereignisse zu senden.Wichtige genutzte Dodo-Funktionen
Usage-Based Billing
Richte Produkte ein, die sich nach dem Verbrauch richten.
Meters
Definiere die Metriken, die du verfolgen und abrechnen möchtest.
Event Ingestion
Sende Nutzungsdaten in Echtzeit an Dodo.
Subscriptions
Verwalte wiederkehrende Abrechnung für reservierte Kapazitäten und Enterprise-Pläne.
Time Range Blueprint
Pro-Sekunde-Compute-Tracking mit Duration-Helpern.