Introducción
Desde que Amazon Bedrock incorporó soporte nativo para modelos de Anthropic (Claude) y las APIs de OpenAI (Responses y Chat Completions) a través del endpoint bedrock-mantle, los equipos de DevOps y SRE ganaron flexibilidad para migrar aplicaciones existentes sin reescribir código. Sin embargo, hasta ahora el monitoreo de este endpoint era limitado: solo se podían consultar logs básicos en CloudTrail o métricas agregadas en CloudWatch sin granularidad por modelo, proyecto o cuenta.
Esta brecha operativa generaba dolores concretos:
- Falta de atribución de costos: Los equipos no podían distinguir si el gasto en tokens de entrada/salida correspondía a un proyecto específico o a un modelo en particular.
- Dificultad para debugging: Cuando ocurrían errores de cliente (4xx), no había forma de filtrar por endpoint o modelo sin parsear logs manualmente.
- Planificación de capacidad opaca: Las métricas agregadas de bedrock-runtime no reflejaban el tráfico real del endpoint bedrock-mantle, lo que impedía ajustar cuotas o escalar proactivamente.
AWS resolvió esto en junio de 2026 al publicar métricas de CloudWatch específicas para bedrock-mantle, integrándolas al namespace AWS/BedrockMantle con granularidad hasta por proyecto-modelo.
Qué ocurrió
El 10 de junio de 2026, AWS anunció soporte para métricas de CloudWatch en el endpoint bedrock-mantle de Amazon Bedrock. Estas métricas son compatibles con las APIs:
- OpenAI Responses API (versión 1.0+ según OpenAPI Spec)
- OpenAI Chat Completions API (versión 1.0+)
- Anthropic Messages API (versión 2023-06-01+ según Anthropic API Reference)
A diferencia de las métricas genéricas de bedrock-runtime (que solo agrupan por cuenta o región), las nuevas métricas se publican bajo el namespace AWS/BedrockMantle con cuatro niveles de granularidad:
- Account: Total por cuenta AWS.
- Project: Agrupada por el project ID definido en el contexto de la llamada (requiere etiquetado previo con
aws:bedrock:project-id). - Model: Por ID de modelo (ej:
anthropic.claude-3-sonnet-20240229-v1:0). - Project-and-Model: Combinación exacta de proyecto y modelo.
Datos técnicos clave
- Frecuencia de publicación: Las métricas se actualizan cada 60 segundos.
- Retención: 15 meses en CloudWatch (por defecto).
- Regiones disponibles: Se habilitaron en 16 regiones (ver lista al final de esta sección).
Para validar la disponibilidad en tu región, ejecuta:
aws cloudwatch list-metrics --namespace AWS/BedrockMantle --query 'Metrics[].Namespace' --region us-east-1Si devuelve ["AWS/BedrockMantle"], la región está soportada.
Impacto para DevOps / Infraestructura / Cloud / Seguridad
Para equipos de DevOps y SRE
Ahora pueden:
- Monitorear producción en tiempo real:
– InferenceCount: Número de inferencias procesadas.
– InputTokenCount: Tokens de entrada totales.
– OutputTokenCount: Tokens de salida totales.
– ClientErrorCount: Errores 4xx por cliente (ej: invalid_request_error).
– Ejemplo de uso: Crear un dashboard en CloudWatch con:
# Ejemplo de widget en Terraform para CloudWatch
resource "aws_cloudwatch_dashboard" "bedrock_mantle" {
dashboard_name = "bedrock-mantle-monitoring"
dashboard_body = jsonencode({
widgets = [
{
type = "metric"
x = 0
y = 0
width = 12
height = 6
properties = {
metrics = [
["AWS/BedrockMantle", "InferenceCount", "Project", "mi-proyecto", "Model", "anthropic.claude-3-haiku-20240307-v1:0", { "stat": "Sum" }],
["...", "InputTokenCount", "...", "...", "...", { "stat": "Sum" }],
["...", "OutputTokenCount", "...", "...", "...", { "stat": "Sum" }]
]
period = 300
stat = "Sum"
region = "us-east-1"
}
}
]
})
}
- Automatizar alarmas:
ClientErrorCount (ej: umbral de 10 errores/minuto en un modelo específico).– Comando para crear una alarma con AWS CLI:
aws cloudwatch put-metric-alarm \
--alarm-name "BedrockMantle-HighClientErrors" \
--alarm-description "Alarma para errores 4xx en bedrock-mantle" \
--namespace AWS/BedrockMantle \
--metric-name ClientErrorCount \
--dimensions Name=Project,Value=mi-proyecto Name=Model,Value=anthropic.claude-3-haiku-20240307-v1:0 \
--statistic Sum \
--period 60 \
--threshold 10 \
--comparison-operator GreaterThanThreshold \
--evaluation-periods 1 \
--alarm-actions arn:aws:sns:us-east-1:123456789012:mi-topic-alertas \
--region us-east-1
Para equipos de FinOps y Costos
La granularidad por proyecto y modelo permite:
- Atribuir costos con precisión: Si un proyecto usa
claude-3-haikupara soporte al cliente y otro usagpt-4-turbopara desarrollo, ahora se pueden separar los costos de tokens de salida (ej: $0.0015/1K tokens para Claude vs. $0.01/1K para GPT-4). - Optimizar presupuestos: Identificar modelos con alta relación
OutputTokenCount/InputTokenCount(ej: un modelo que genera respuestas 5x más largas que el input).
Para equipos de Seguridad
Las métricas añaden visibilidad sobre:
- Intentos de abuso: Un aumento repentino en
ClientErrorCountpodría indicar:
invalid_api_key).– Ataques de fuerza bruta en endpoints expuestos.
- Fugas de datos: Si
InputTokenCountsupera el promedio histórico en un proyecto, podría alertar sobre un aumento en el procesamiento de datos sensibles.
Detalles técnicos
Componentes afectados
| Componente | Versión mínima requerida | Notas |
|---|---|---|
| **Amazon Bedrock Runtime** | 2023-09-30+ | Endpoint *bedrock-mantle* disponible desde esta versión. |
| **AWS CLI** | 2.15.0+ | Necesario para consultar métricas con BLOCK31 . |
| **SDKs AWS** | Boto3 1.34.0+, AWS SDK for JavaScript 3.400.0+ | Para integrar métricas en código personalizado. |
| **Terraform AWS Provider** | 5.60.0+ | Soporte nativo en recursos BLOCK32 . |
AWS publicita las métricas bajo el namespace AWS/BedrockMantle con las siguientes dimensiones (par clave-valor):
| Dimensión | Descripción | Ejemplo de valor |
|---|---|---|
