vllm-project
diff --git a/‎tests/entrypoints/openai/test_metrics.py‎
Lines changed: 28 additions & 0 deletions b/‎tests/entrypoints/openai/test_metrics.py‎
Lines changed: 28 additions & 0 deletions
@@ -85,6 +85,10 @@ async def client(server):
  "vllm:time_per_output_token_seconds":
  [("_count", _NUM_REQUESTS * (_NUM_GENERATION_TOKENS_PER_REQUEST - 1))],
  "vllm:e2e_request_latency_seconds": [("_count", _NUM_REQUESTS)],
+ "vllm:request_queue_time_seconds": [("_count", _NUM_REQUESTS)],
+ "vllm:request_inference_time_seconds": [("_count", _NUM_REQUESTS)],
+ "vllm:request_prefill_time_seconds": [("_count", _NUM_REQUESTS)],
+ "vllm:request_decode_time_seconds": [("_count", _NUM_REQUESTS)],
  "vllm:request_prompt_tokens":
  [("_sum", _NUM_REQUESTS * _NUM_PROMPT_TOKENS_PER_REQUEST),
  ("_count", _NUM_REQUESTS)],
@@ -169,6 +173,18 @@ async def test_metrics_counts(server: RemoteOpenAIServer,
  "vllm:e2e_request_latency_seconds_sum",
  "vllm:e2e_request_latency_seconds_bucket",
  "vllm:e2e_request_latency_seconds_count",
+ "vllm:request_queue_time_seconds_sum",
+ "vllm:request_queue_time_seconds_bucket",
+ "vllm:request_queue_time_seconds_count",
+ "vllm:request_inference_time_seconds_sum",
+ "vllm:request_inference_time_seconds_bucket",
+ "vllm:request_inference_time_seconds_count",
+ "vllm:request_prefill_time_seconds_sum",
+ "vllm:request_prefill_time_seconds_bucket",
+ "vllm:request_prefill_time_seconds_count",
+ "vllm:request_decode_time_seconds_sum",
+ "vllm:request_decode_time_seconds_bucket",
+ "vllm:request_decode_time_seconds_count",
  "vllm:request_prompt_tokens_sum",
  "vllm:request_prompt_tokens_bucket",
  "vllm:request_prompt_tokens_count",
@@ -221,6 +237,18 @@ async def test_metrics_counts(server: RemoteOpenAIServer,
  "vllm:e2e_request_latency_seconds_sum",
  "vllm:e2e_request_latency_seconds_bucket",
  "vllm:e2e_request_latency_seconds_count",
+ "vllm:request_queue_time_seconds_sum",
+ "vllm:request_queue_time_seconds_bucket",
+ "vllm:request_queue_time_seconds_count",
+ "vllm:request_inference_time_seconds_sum",
+ "vllm:request_inference_time_seconds_bucket",
+ "vllm:request_inference_time_seconds_count",
+ "vllm:request_prefill_time_seconds_sum",
+ "vllm:request_prefill_time_seconds_bucket",
+ "vllm:request_prefill_time_seconds_count",
+ "vllm:request_decode_time_seconds_sum",
+ "vllm:request_decode_time_seconds_bucket",
+ "vllm:request_decode_time_seconds_count",
 ]