googleapis
diff --git a/‎tests/unit/vertexai/genai/replays/test_get_evaluation_run.py‎
Lines changed: 33 additions & 0 deletions b/‎tests/unit/vertexai/genai/replays/test_get_evaluation_run.py‎
Lines changed: 33 additions & 0 deletions
diff --git a/‎vertexai/_genai/_evals_visualization.py‎
Lines changed: 39 additions & 0 deletions b/‎vertexai/_genai/_evals_visualization.py‎
Lines changed: 39 additions & 0 deletions
diff --git a/‎vertexai/_genai/types.py‎
Lines changed: 14 additions & 0 deletions b/‎vertexai/_genai/types.py‎
Lines changed: 14 additions & 0 deletions
@@ -16,6 +16,7 @@
 
 from tests.unit.vertexai.genai.replays import pytest_helper
 from vertexai import types
+from vertexai._genai import _evals_visualization
 import datetime
 import pytest
 
@@ -188,6 +189,38 @@ def check_run_1957799200510967808(
  )
  )
  assert evaluation_run.error is None
+ eval_result = _evals_visualization._get_eval_result_from_eval_run(
+ evaluation_run.evaluation_results
+ )
+ assert isinstance(eval_result, types.EvaluationResult)
+ assert eval_result.summary_metrics == [
+ types.AggregatedMetricResult(
+ metric_name="checkpoint_1/universal",
+ mean_score=0.986633250587865,
+ stdev_score=0.0393092386127714,
+ ),
+ types.AggregatedMetricResult(
+ metric_name="checkpoint_2/universal",
+ mean_score=0.9438178790243048,
+ stdev_score=0.07597187617837561,
+ ),
+ types.AggregatedMetricResult(
+ metric_name="gemini-2.0-flash-001@default/universal",
+ mean_score=0.6943817985685249,
+ stdev_score=0.17738341388587855,
+ ),
+ types.AggregatedMetricResult(
+ metric_name="checkpoint_1/user_defined", mean_score=5, stdev_score=0
+ ),
+ types.AggregatedMetricResult(
+ metric_name="checkpoint_2/user_defined", mean_score=5, stdev_score=0
+ ),
+ types.AggregatedMetricResult(
+ metric_name="gemini-2.0-flash-001@default/user_defined",
+ mean_score=4.736842105263158,
+ stdev_score=0.6359497880839245,
+ ),
+ ]
 
 
 pytestmark = pytest_helper.setup(
 
@@ -727,3 +727,42 @@ def display_evaluation_dataset(eval_dataset_obj: types.EvaluationDataset) -> Non
  dataframe_json_string = json.dumps(processed_rows, ensure_ascii=False, default=str)
  html_content = _get_inference_html(dataframe_json_string)
  display.display(display.HTML(html_content))
+
+
+def _get_eval_result_from_eval_run(
+ results: types.EvaluationRunResults,
+) -> types.EvaluationResult:
+ """Retrieves an EvaluationResult from the resource name."""
+ if (
+ not results
+ or not results.summary_metrics
+ or not results.summary_metrics.metrics
+ ):
+ return types.EvaluationResult()
+
+ aggregated_metrics_dict = {}
+ for name, value in results.summary_metrics.metrics.items():
+ result = name.rsplit("/", 1)
+ full_metric_name = result[0]
+ aggregated_metric_name = result[1]
+ if full_metric_name not in aggregated_metrics_dict:
+ aggregated_metrics_dict[full_metric_name] = {}
+ aggregated_metrics_dict[full_metric_name]["sub_metric_name"] = (
+ full_metric_name.split("/")[-1]
+ )
+ aggregated_metrics_dict[full_metric_name][aggregated_metric_name] = value
+
+ items_sorted = sorted(
+ aggregated_metrics_dict.items(),
+ key=lambda item: (item[1]["sub_metric_name"], item[0]),
+ )
+
+ aggregated_metrics = [
+ types.AggregatedMetricResult(
+ metric_name=name,
+ mean_score=values.get("AVERAGE"),
+ stdev_score=values.get("STANDARD_DEVIATION"),
+ )
+ for name, values in items_sorted
+ ]
+ return types.EvaluationResult(summary_metrics=aggregated_metrics)
@@ -578,6 +578,20 @@ class EvaluationRun(_common.BaseModel):
  default=None, description="""The results for the evaluation run."""
  )
 
+ def show(self) -> None:
+ """Shows the evaluation result."""
+ from . import _evals_visualization
+
+ if self.state == "SUCCEEDED":
+ eval_result = _evals_visualization._get_eval_result_from_eval_run(
+ self.evaluation_results
+ )
+ _evals_visualization.display_evaluation_result(eval_result, None)
+ else:
+ logger.warning(f"Evaluation Run state: {self.state}.")
+ if self.error:
+ logger.warning(f"Evaluation Run error: {self.error.message}")
+
 
 class EvaluationRunDict(TypedDict, total=False):
  """Represents an evaluation run."""