googleapis
diff --git a/‎google/cloud/aiplatform/models.py‎
Lines changed: 20 additions & 0 deletions b/‎google/cloud/aiplatform/models.py‎
Lines changed: 20 additions & 0 deletions
diff --git a/‎tests/unit/aiplatform/test_endpoints.py‎
Lines changed: 51 additions & 1 deletion b/‎tests/unit/aiplatform/test_endpoints.py‎
Lines changed: 51 additions & 1 deletion
diff --git a/‎tests/unit/aiplatform/test_models.py‎
Lines changed: 56 additions & 0 deletions b/‎tests/unit/aiplatform/test_models.py‎
Lines changed: 56 additions & 0 deletions
@@ -1363,6 +1363,7 @@ def deploy(
  deploy_request_timeout: Optional[float] = None,
  autoscaling_target_cpu_utilization: Optional[int] = None,
  autoscaling_target_accelerator_duty_cycle: Optional[int] = None,
+ autoscaling_target_request_count_per_minute: Optional[int] = None,
  enable_access_logging=False,
  disable_container_logging: bool = False,
  deployment_resource_pool: Optional[DeploymentResourcePool] = None,
@@ -1456,6 +1457,9 @@ def deploy(
  Target Accelerator Duty Cycle.
  Must also set accelerator_type and accelerator_count if specified.
  A default value of 60 will be used if not specified.
+ autoscaling_target_request_count_per_minute (int):
+ Optional. The target number of requests per minute for autoscaling.
+ If set, the model will be scaled based on the number of requests it receives.
  enable_access_logging (bool):
  Whether to enable endpoint access logging. Defaults to False.
  disable_container_logging (bool):
@@ -1536,6 +1540,7 @@ def deploy(
  deploy_request_timeout=deploy_request_timeout,
  autoscaling_target_cpu_utilization=autoscaling_target_cpu_utilization,
  autoscaling_target_accelerator_duty_cycle=autoscaling_target_accelerator_duty_cycle,
+ autoscaling_target_request_count_per_minute=autoscaling_target_request_count_per_minute,
  spot=spot,
  enable_access_logging=enable_access_logging,
  disable_container_logging=disable_container_logging,
@@ -1568,6 +1573,7 @@ def _deploy(
  deploy_request_timeout: Optional[float] = None,
  autoscaling_target_cpu_utilization: Optional[int] = None,
  autoscaling_target_accelerator_duty_cycle: Optional[int] = None,
+ autoscaling_target_request_count_per_minute: Optional[int] = None,
  spot: bool = False,
  enable_access_logging=False,
  disable_container_logging: bool = False,
@@ -1664,6 +1670,9 @@ def _deploy(
  Target Accelerator Duty Cycle.
  Must also set accelerator_type and accelerator_count if specified.
  A default value of 60 will be used if not specified.
+ autoscaling_target_request_count_per_minute (int):
+ Optional. The target number of requests per minute for autoscaling.
+ If set, the model will be scaled based on the number of requests it receives.
  spot (bool):
  Optional. Whether to schedule the deployment workload on spot VMs.
  enable_access_logging (bool):
@@ -1721,6 +1730,7 @@ def _deploy(
  deploy_request_timeout=deploy_request_timeout,
  autoscaling_target_cpu_utilization=autoscaling_target_cpu_utilization,
  autoscaling_target_accelerator_duty_cycle=autoscaling_target_accelerator_duty_cycle,
+ autoscaling_target_request_count_per_minute=autoscaling_target_request_count_per_minute,
  spot=spot,
  enable_access_logging=enable_access_logging,
  disable_container_logging=disable_container_logging,
@@ -5339,6 +5349,7 @@ def deploy(
  deploy_request_timeout: Optional[float] = None,
  autoscaling_target_cpu_utilization: Optional[int] = None,
  autoscaling_target_accelerator_duty_cycle: Optional[int] = None,
+ autoscaling_target_request_count_per_minute: Optional[int] = None,
  enable_access_logging=False,
  disable_container_logging: bool = False,
  private_service_connect_config: Optional[
@@ -5454,6 +5465,9 @@ def deploy(
  Optional. Target Accelerator Duty Cycle.
  Must also set accelerator_type and accelerator_count if specified.
  A default value of 60 will be used if not specified.
+ autoscaling_target_request_count_per_minute (int):
+ Optional. The target number of requests per minute for autoscaling.
+ If set, the model will be scaled based on the number of requests it receives.
  enable_access_logging (bool):
  Whether to enable endpoint access logging. Defaults to False.
  disable_container_logging (bool):
@@ -5561,6 +5575,7 @@ def deploy(
  deploy_request_timeout=deploy_request_timeout,
  autoscaling_target_cpu_utilization=autoscaling_target_cpu_utilization,
  autoscaling_target_accelerator_duty_cycle=autoscaling_target_accelerator_duty_cycle,
+ autoscaling_target_request_count_per_minute=autoscaling_target_request_count_per_minute,
  spot=spot,
  enable_access_logging=enable_access_logging,
  disable_container_logging=disable_container_logging,
@@ -5603,6 +5618,7 @@ def _deploy(
  deploy_request_timeout: Optional[float] = None,
  autoscaling_target_cpu_utilization: Optional[int] = None,
  autoscaling_target_accelerator_duty_cycle: Optional[int] = None,
+ autoscaling_target_request_count_per_minute: Optional[int] = None,
  spot: bool = False,
  enable_access_logging=False,
  disable_container_logging: bool = False,
@@ -5720,6 +5736,9 @@ def _deploy(
  Optional. Target Accelerator Duty Cycle.
  Must also set accelerator_type and accelerator_count if specified.
  A default value of 60 will be used if not specified.
+ autoscaling_target_request_count_per_minute (int):
+ Optional. The target number of requests per minute for autoscaling.
+ If set, the model will be scaled based on the number of requests it receives.
  spot (bool):
  Optional. Whether to schedule the deployment workload on spot VMs.
  enable_access_logging (bool):
@@ -5808,6 +5827,7 @@ def _deploy(
  deploy_request_timeout=deploy_request_timeout,
  autoscaling_target_cpu_utilization=autoscaling_target_cpu_utilization,
  autoscaling_target_accelerator_duty_cycle=autoscaling_target_accelerator_duty_cycle,
+ autoscaling_target_request_count_per_minute=autoscaling_target_request_count_per_minute,
  spot=spot,
  enable_access_logging=enable_access_logging,
  disable_container_logging=disable_container_logging,
 
@@ -1917,11 +1917,61 @@ def test_deploy_with_autoscaling_target_accelerator_duty_cycle_and_no_accelerato
  if not sync:
  test_endpoint.wait()
 
+ @pytest.mark.usefixtures("get_endpoint_mock", "get_model_mock")
+ @pytest.mark.parametrize("sync", [True, False])
+ def test_deploy_with_autoscaling_target_request_count_per_minute(
+ self, deploy_model_mock, sync
+ ):
+ test_endpoint = models.Endpoint(_TEST_ENDPOINT_NAME)
+ test_model = models.Model(_TEST_ID)
+ test_model._gca_resource.supported_deployment_resources_types.append(
+ aiplatform.gapic.Model.DeploymentResourcesType.DEDICATED_RESOURCES
+ )
+ test_endpoint.deploy(
+ model=test_model,
+ machine_type=_TEST_MACHINE_TYPE,
+ service_account=_TEST_SERVICE_ACCOUNT,
+ sync=sync,
+ deploy_request_timeout=None,
+ autoscaling_target_request_count_per_minute=600,
+ )
+
+ if not sync:
+ test_endpoint.wait()
+
+ expected_dedicated_resources = gca_machine_resources.DedicatedResources(
+ machine_spec=gca_machine_resources.MachineSpec(
+ machine_type=_TEST_MACHINE_TYPE,
+ ),
+ min_replica_count=1,
+ max_replica_count=1,
+ autoscaling_metric_specs=[
+ gca_machine_resources.AutoscalingMetricSpec(
+ metric_name=_TEST_METRIC_NAME_REQUEST_COUNT,
+ target=600,
+ ),
+ ],
+ )
+
+ expected_deployed_model = gca_endpoint.DeployedModel(
+ dedicated_resources=expected_dedicated_resources,
+ model=test_model.resource_name,
+ display_name=None,
+ service_account=_TEST_SERVICE_ACCOUNT,
+ )
+ deploy_model_mock.assert_called_once_with(
+ endpoint=test_endpoint.resource_name,
+ deployed_model=expected_deployed_model,
+ traffic_split={"0": 100},
+ metadata=(),
+ timeout=None,
+ )
+
  @pytest.mark.usefixtures(
  "get_endpoint_mock", "get_model_mock", "preview_deploy_model_mock"
  )
  @pytest.mark.parametrize("sync", [True, False])
- def test_deploy_with_autoscaling_target_request_count_per_minute(
+ def test_deploy_with_autoscaling_target_request_count_per_minute_preview(
  self, preview_deploy_model_mock, sync
  ):
  test_endpoint = preview_models.Endpoint(_TEST_ENDPOINT_NAME)
 
@@ -2386,6 +2386,62 @@ def test_deploy_no_endpoint_dedicated_resources_autoscaling_accelerator_duty_cyc
  if not sync:
  test_endpoint.wait()
 
+ @pytest.mark.usefixtures(
+ "get_model_mock",
+ "create_endpoint_mock",
+ "get_endpoint_mock",
+ )
+ @pytest.mark.parametrize("sync", [True, False])
+ def test_deploy_no_endpoint_dedicated_resources_autoscaling_request_count_per_minute(
+ self, deploy_model_mock, sync
+ ):
+ test_model = models.Model(_TEST_ID)
+ test_model._gca_resource.supported_deployment_resources_types.append(
+ aiplatform.gapic.Model.DeploymentResourcesType.DEDICATED_RESOURCES
+ )
+
+ test_endpoint = test_model.deploy(
+ machine_type=_TEST_MACHINE_TYPE,
+ accelerator_type=_TEST_ACCELERATOR_TYPE,
+ accelerator_count=_TEST_ACCELERATOR_COUNT,
+ sync=sync,
+ deploy_request_timeout=None,
+ system_labels=_TEST_LABELS,
+ autoscaling_target_request_count_per_minute=600,
+ )
+
+ if not sync:
+ test_endpoint.wait()
+
+ expected_dedicated_resources = gca_machine_resources.DedicatedResources(
+ machine_spec=gca_machine_resources.MachineSpec(
+ machine_type=_TEST_MACHINE_TYPE,
+ accelerator_type=_TEST_ACCELERATOR_TYPE,
+ accelerator_count=_TEST_ACCELERATOR_COUNT,
+ ),
+ min_replica_count=1,
+ max_replica_count=1,
+ autoscaling_metric_specs=[
+ gca_machine_resources.AutoscalingMetricSpec(
+ metric_name=_TEST_METRIC_NAME_REQUEST_COUNT,
+ target=600,
+ ),
+ ],
+ )
+ expected_deployed_model = gca_endpoint.DeployedModel(
+ dedicated_resources=expected_dedicated_resources,
+ model=test_model.resource_name,
+ display_name=None,
+ system_labels=_TEST_LABELS,
+ )
+ deploy_model_mock.assert_called_once_with(
+ endpoint=test_endpoint.resource_name,
+ deployed_model=expected_deployed_model,
+ traffic_split={"0": 100},
+ metadata=(),
+ timeout=None,
+ )
+
  @pytest.mark.usefixtures(
  "get_model_mock",
  "create_endpoint_mock",