Cómo factura Replicate
Los precios de Replicate están desacoplados del modelo específico que se ejecuta. Ya sea que estés generando una imagen con SDXL o ejecutando Llama 3, la facturación se determina por el nivel de hardware y la duración de la ejecución. Esto les permite alojar miles de modelos de código abierto sin necesitar un plan de precios separado para cada uno.| Hardware | Precio por segundo | Precio por hora |
|---|---|---|
| NVIDIA CPU | $0.000100 | $0.36 |
| NVIDIA T4 GPU | $0.000225 | $0.81 |
| NVIDIA A40 GPU | $0.000575 | $2.07 |
| NVIDIA A40 (Large) GPU | $0.000725 | $2.61 |
| NVIDIA A100 (40GB) GPU | $0.001150 | $4.14 |
| NVIDIA A100 (80GB) GPU | $0.001400 | $5.04 |
- Tarifas específicas de hardware: El costo por segundo varía según los recursos de cómputo requeridos. Cada nivel de hardware tiene un punto de precio diferente.
- Modelo puramente basado en el uso: No hay tarifas mensuales, ni cargos por exceso, ni límites. Los usuarios pagan por el tiempo de cómputo exacto (por ejemplo, “12.4 segundos en un A100”) en lugar de por generación.
- Granularidad por segundo: Los proveedores tradicionales cobran por hora o por minuto, lo que genera desperdicio en tareas de corta duración. La facturación por segundo elimina esta ineficiencia tanto para experimentos pequeños como para cargas de producción grandes.
Los arranques en frío también se facturan. La primera solicitud a un modelo suele tardar entre 10 y 30 segundos en cargar el modelo en memoria. Este tiempo de carga se factura a la misma tarifa que el tiempo de ejecución.
Qué lo hace único
- Medición específica por hardware: El mismo modelo cuesta más en mejor hardware. Los usuarios eligen entre velocidad y costo. Una GPU T4 funciona para tareas que no son sensibles al tiempo, mientras que una A100 maneja aplicaciones en tiempo real.
- Granularidad por segundo: La facturación se calcula por segundo, por lo que los usuarios nunca pagan de más por tareas cortas.
- Sin suscripción: Sin compromiso para comenzar. Escala infinitamente con el uso, lo que lo hace ideal para startups y desarrolladores que experimentan con diferentes modelos.
- Agonista de modelos: La lógica de facturación permanece igual sin importar el tipo de tarea (generación de imágenes, procesamiento de texto, transcripción de audio o síntesis de video). Esto permite que la plataforma soporte un vasto ecosistema de modelos sin tablas de precios complejas.
Construye esto con Dodo Payments
Puedes replicar este modelo de facturación usando las funciones de facturación basada en el uso de Dodo Payments. La clave es usar múltiples medidores para rastrear diferentes niveles de hardware y adjuntarlos a un único producto.Create Usage Meters (One Per Hardware Class)
Crea medidores separados para cada nivel de hardware. Cada tipo de hardware tiene un costo diferente por segundo, por lo que la medición independiente permite a Dodo establecer precios distintos para cada nivel y brindar facturación detallada.
La agregación
| Nombre del medidor | Nombre del evento | Agregación | Propiedad |
|---|---|---|---|
| CPU Compute | compute.cpu | Suma | execution_seconds |
| GPU T4 Compute | compute.gpu_t4 | Suma | execution_seconds |
| GPU A40 Compute | compute.gpu_a40 | Suma | execution_seconds |
| GPU A40 Large Compute | compute.gpu_a40_large | Suma | execution_seconds |
| GPU A100 40GB Compute | compute.gpu_a100_40 | Suma | execution_seconds |
| GPU A100 80GB Compute | compute.gpu_a100_80 | Suma | execution_seconds |
Sum sobre la propiedad execution_seconds calcula el tiempo total de cómputo por nivel de hardware durante el período de facturación.Create a Usage-Based Product
Crea un nuevo producto en el panel de control de Dodo Payments:
Establece el Umbral gratuito en 0 para todos los medidores. Cada segundo de ejecución se factura.
- Tipo de precio: Facturación basada en el uso
- Precio base: $0/mes (sin tarifa de suscripción)
- Frecuencia de facturación: Mensual
| Medidor | Precio por unidad (por segundo) |
|---|---|
| compute.cpu | $0.000100 |
| compute.gpu_t4 | $0.000225 |
| compute.gpu_a40 | $0.000575 |
| compute.gpu_a40_large | $0.000725 |
| compute.gpu_a100_40 | $0.001150 |
| compute.gpu_a100_80 | $0.001400 |
Send Usage Events
Envía eventos de uso a Dodo cada vez que finaliza una ejecución de modelo. Incluye un
event_id único para cada predicción y garantizar la idempotencia.Measure Execution Time Precisely
Envuelve tu ejecución de modelo con un cronometraje preciso usando
performance.now(). Redondea al décimo de segundo más cercano para la facturación.Acelera con el Blueprint de ingestión por rango de tiempo
El Blueprint de ingestión por rango de tiempo simplifica el seguimiento del cómputo por segundo. Crea una instancia de ingestión por cada nivel de hardware y usatrackTimeRange para una presentación de eventos más limpia.
Estimación de costos para usuarios
Dado que la facturación basada en el uso puede ser impredecible, proporciona a los usuarios estimaciones de costos antes de que ejecuten un modelo. Esto reduce las facturas sorpresas y genera confianza.Ejemplos de cálculos de costos
| Modelo | Hardware | Tiempo promedio | Costo por ejecución |
|---|---|---|---|
| SDXL (imagen) | A100 80GB | ~8 seg | ~$0.0112 |
| Llama 3 (texto) | A100 40GB | ~3 seg | ~$0.0035 |
| Whisper (audio) | GPU T4 | ~15 seg | ~$0.0034 |
Construcción de un calculador de costos
Empresas: Capacidad reservada
Para clientes empresariales que necesitan disponibilidad garantizada y sin arranques en frío, Replicate ofrece “Instancias privadas” a una tarifa fija por hora. Con Dodo Payments, modela esto como un producto de suscripción:- Tipo de producto: Suscripción
- Precio: Precio mensual fijo (por ejemplo, “Instancia A100 reservada - $500/mes”)
- Ciclo de facturación: Mensual
Avanzado: Medición por latidos
Para tareas que duran varios minutos u horas, enviar un único evento al final es arriesgado. Si el proceso falla, se pierde el dato de uso. Un enfoque mejor es enviar eventos de uso cada 30-60 segundos durante la ejecución.Características clave de Dodo utilizadas
Usage-Based Billing
Configura productos que facturan según el consumo.
Meters
Define las métricas que deseas rastrear y facturar.
Event Ingestion
Envía datos de uso a Dodo en tiempo real.
Subscriptions
Gestiona la facturación recurrente para la capacidad reservada y los planes empresariales.
Time Range Blueprint
Seguimiento de cómputo por segundo con ayudantes de duración.
Key Dodo Features Used
Usage-Based Billing
Set up products that bill based on consumption.
Meters
Define the metrics you want to track and bill for.
Event Ingestion
Send usage data to Dodo in real-time.
Subscriptions
Manage recurring billing for reserved capacity and enterprise plans.
Time Range Blueprint
Per-second compute tracking with duration helpers.