Como a Replicate Cobra
Os preços da Replicate são desacoplados do modelo específico em execução. Quer você esteja gerando uma imagem com SDXL ou executando o Llama 3, a cobrança é determinada pelo nível de hardware e pela duração da execução. Isso permite que eles hospedem milhares de modelos de código aberto sem precisar de um plano de preços separado para cada um.| Hardware | Preço por Segundo | Preço por Hora |
|---|---|---|
| NVIDIA CPU | $0.000100 | $0.36 |
| NVIDIA T4 GPU | $0.000225 | $0.81 |
| NVIDIA A40 GPU | $0.000575 | $2.07 |
| NVIDIA A40 (Large) GPU | $0.000725 | $2.61 |
| NVIDIA A100 (40GB) GPU | $0.001150 | $4.14 |
| NVIDIA A100 (80GB) GPU | $0.001400 | $5.04 |
- Tarifas específicas por hardware: O custo por segundo varia com base nos recursos de computação necessários. Cada nível de hardware tem um ponto de preço diferente.
- Modelo puramente baseado no uso: Não há taxas mensais, excedentes ou limites. Os usuários são cobrados pelo tempo exato de computação (por exemplo, “12.4 seconds on an A100”) em vez de por geração.
- Granularidade por segundo: Provedores em nuvem tradicionais cobram por hora ou minuto, o que gera desperdício em tarefas curtas. A cobrança por segundo elimina essa ineficiência tanto para experimentos rápidos quanto para cargas de produção pesadas.
Inícios a frio também são cobrados. A primeira requisição a um modelo frequentemente leva de 10 a 30 segundos para carregar o modelo na memória. Esse tempo de carregamento é cobrado à mesma tarifa da execução.
- Métricas específicas por hardware: O mesmo modelo custa mais em hardware melhor. Os usuários escolhem entre velocidade e custo. Uma GPU T4 serve para tarefas sem sensibilidade a tempo, enquanto uma A100 atende aplicações em tempo real.
- Granularidade por segundo: A cobrança é calculada segundo a segundo, portanto os usuários nunca pagam a mais por tarefas curtas.
- Sem assinatura: Compromisso zero para começar. Escala infinitamente com o uso, sendo ideal para startups e desenvolvedores experimentando diferentes modelos.
- Independente de modelo: A lógica de cobrança permanece a mesma independentemente do tipo de tarefa (geração de imagem, processamento de texto, transcrição de áudio ou síntese de vídeo). Isso permite que a plataforma suporte um vasto ecossistema de modelos sem tabelas de preços complexas.
Recrie isso com Dodo Payments
Você pode reproduzir esse modelo de cobrança usando os recursos de faturamento baseado no uso da Dodo Payments. O segredo é usar múltiplos medidores para rastrear os diferentes níveis de hardware e associá-los a um único produto.Create Usage Meters (One Per Hardware Class)
Crie medidores separados para cada nível de hardware. Cada tipo de hardware tem um custo por segundo diferente, então a medição independente permite que a Dodo precifique cada nível de forma distinta e forneça faturas itemizadas.
A agregação
| Nome do Medidor | Nome do Evento | Agregação | Propriedade |
|---|---|---|---|
| CPU Compute | compute.cpu | Sum | execution_seconds |
| GPU T4 Compute | compute.gpu_t4 | Sum | execution_seconds |
| GPU A40 Compute | compute.gpu_a40 | Sum | execution_seconds |
| GPU A40 Large Compute | compute.gpu_a40_large | Sum | execution_seconds |
| GPU A100 40GB Compute | compute.gpu_a100_40 | Sum | execution_seconds |
| GPU A100 80GB Compute | compute.gpu_a100_80 | Sum | execution_seconds |
Sum na propriedade execution_seconds calcula o tempo total de computação por nível de hardware durante o período de cobrança.Create a Usage-Based Product
Crie um novo produto no painel da Dodo Payments:
Defina o Limite Gratuito como 0 para todos os medidores. Cada segundo de execução é cobrável.
- Tipo de precificação: Cobrança baseada no uso
- Preço base: $0/mês (sem taxa de assinatura)
- Frequência de cobrança: Mensal
| Medidor | Preço por Unidade (por segundo) |
|---|---|
| compute.cpu | $0.000100 |
| compute.gpu_t4 | $0.000225 |
| compute.gpu_a40 | $0.000575 |
| compute.gpu_a40_large | $0.000725 |
| compute.gpu_a100_40 | $0.001150 |
| compute.gpu_a100_80 | $0.001400 |
Send Usage Events
Envie eventos de uso para a Dodo sempre que uma execução de modelo for concluída. Inclua um
event_id único para cada previsão a fim de garantir idempotência.Measure Execution Time Precisely
Envolva a execução do modelo com temporização precisa usando
performance.now(). Arredonde para o décimo de segundo mais próximo para cobrança.Acelere com o Blueprint de Ingestão Time Range
O Time Range Ingestion Blueprint simplifica o rastreamento de computação por segundo. Crie uma instância de ingestão por nível de hardware e usetrackTimeRange para uma submissão de eventos mais limpa.
Estimativa de Custos para Usuários
Como a cobrança baseada no uso pode ser imprevisível, forneça aos usuários estimativas de custo antes que eles executem um modelo. Isso reduz surpresas na fatura e gera confiança.Cálculos de Custos de Exemplo
| Modelo | Hardware | Tempo Médio | Custo por Execução |
|---|---|---|---|
| SDXL (imagem) | A100 80GB | ~8 sec | ~$0.0112 |
| Llama 3 (texto) | A100 40GB | ~3 sec | ~$0.0035 |
| Whisper (áudio) | GPU T4 | ~15 sec | ~$0.0034 |
Construindo um Calculador de Custos
Empresarial: Capacidade Reservada
Para clientes empresariais que precisam de disponibilidade garantida e ausência de inícios a frio, a Replicate oferece “Instâncias Privadas” a uma tarifa horária fixa. Com a Dodo Payments, modelei isso como um produto de assinatura:- Tipo de Produto: Assinatura
- Preço: Valor mensal fixo (por exemplo, “Instância Reservada A100 - $500/mês”)
- Ciclo de Cobrança: Mensal
Avançado: Medição por Heartbeat
Para tarefas que levam vários minutos ou horas, enviar um único evento no final é arriscado. Se o processo travar, você perde os dados de uso. Uma abordagem melhor é enviar eventos de uso a cada 30-60 segundos durante a execução.Principais Recursos da Dodo Utilizados
Usage-Based Billing
Configure produtos que cobram com base no consumo.
Meters
Defina as métricas que você deseja rastrear e cobrar.
Event Ingestion
Envie dados de uso para a Dodo em tempo real.
Subscriptions
Gerencie cobranças recorrentes para capacidade reservada e planos empresariais.
Time Range Blueprint
Rastreamento de computação por segundo com auxiliares de duração.