PaddlePaddle
diff --git a/‎paddle/fluid/eager/accumulation/accumulation_node.cc‎
Lines changed: 1 addition & 2 deletions b/‎paddle/fluid/eager/accumulation/accumulation_node.cc‎
Lines changed: 1 addition & 2 deletions
diff --git a/‎paddle/fluid/eager/accumulation/accumulation_node.h‎
Lines changed: 1 addition & 2 deletions b/‎paddle/fluid/eager/accumulation/accumulation_node.h‎
Lines changed: 1 addition & 2 deletions
diff --git a/‎paddle/fluid/eager/api/generated/eager_generated/backwards/scale_node.cc‎
Lines changed: 1 addition & 2 deletions b/‎paddle/fluid/eager/api/generated/eager_generated/backwards/scale_node.cc‎
Lines changed: 1 addition & 2 deletions
diff --git a/‎paddle/fluid/eager/api/generated/eager_generated/backwards/scale_node.h‎
Lines changed: 1 addition & 2 deletions b/‎paddle/fluid/eager/api/generated/eager_generated/backwards/scale_node.h‎
Lines changed: 1 addition & 2 deletions
diff --git a/‎paddle/fluid/eager/auto_code_generator/eager_generator.cc‎
Lines changed: 16 additions & 5 deletions b/‎paddle/fluid/eager/auto_code_generator/eager_generator.cc‎
Lines changed: 16 additions & 5 deletions
diff --git a/‎paddle/fluid/eager/auto_code_generator/final_state_generator/eager_gen.py‎
Lines changed: 16 additions & 5 deletions b/‎paddle/fluid/eager/auto_code_generator/final_state_generator/eager_gen.py‎
Lines changed: 16 additions & 5 deletions
diff --git a/‎paddle/fluid/eager/grad_node_info.h‎
Lines changed: 1 addition & 1 deletion b/‎paddle/fluid/eager/grad_node_info.h‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎paddle/fluid/eager/grad_tensor_holder.h‎
Lines changed: 1 addition & 1 deletion b/‎paddle/fluid/eager/grad_tensor_holder.h‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎paddle/fluid/eager/tests/data_structure_tests/accumulation_node_test.cc‎
Lines changed: 5 additions & 3 deletions b/‎paddle/fluid/eager/tests/data_structure_tests/accumulation_node_test.cc‎
Lines changed: 5 additions & 3 deletions
diff --git a/‎paddle/fluid/eager/tests/data_structure_tests/grad_node_test.h‎
Lines changed: 1 addition & 2 deletions b/‎paddle/fluid/eager/tests/data_structure_tests/grad_node_test.h‎
Lines changed: 1 addition & 2 deletions
@@ -39,8 +39,7 @@ static void CopyOrAddTensor(paddle::experimental::Tensor* tensor,
 }
 
 std::vector<std::vector<paddle::experimental::Tensor>> GradNodeAccumulation::
-operator()(
- const std::vector<std::vector<paddle::experimental::Tensor>>& grads) {
+operator()(std::vector<std::vector<paddle::experimental::Tensor>>& grads) {
  VLOG(3) << "Running Eager Backward Node: GradNodeAccumulation";
  PADDLE_ENFORCE(grads.size() == 1,
  paddle::platform::errors::Fatal(
 
@@ -32,8 +32,7 @@ class GradNodeAccumulation : public GradNodeBase {
 
  // Functor: perform backward computations
  virtual std::vector<std::vector<paddle::experimental::Tensor>> operator()(
- const std::vector<std::vector<paddle::experimental::Tensor>>& grads)
- override;
+ std::vector<std::vector<paddle::experimental::Tensor>>& grads) override;
 
  std::string name() { return "GradNodeAccumulation"; }
 
 
@@ -145,8 +145,7 @@ void GradNodeScale::SetTensorWrappers_X(
 void GradNodeScale::SetAttributes_scale(float scale) { scale_ = scale; }
 
 std::vector<std::vector<paddle::experimental::Tensor>> GradNodeScale::
-operator()(
- const std::vector<std::vector<paddle::experimental::Tensor>>& grads) {
+operator()(std::vector<std::vector<paddle::experimental::Tensor>>& grads) {
  // 1. Check Output Size
  PADDLE_ENFORCE(
  ((grads.size() == 1) && (grads[0].size() == 1)),
 
@@ -39,8 +39,7 @@ class GradNodeScale : public GradNodeBase {
 
  // Functor: perform backward computations
  virtual std::vector<std::vector<paddle::experimental::Tensor>> operator()(
- const std::vector<std::vector<paddle::experimental::Tensor>>& grads)
- override;
+ std::vector<std::vector<paddle::experimental::Tensor>>& grads) override;
 
  void SetTensorWrappers_X(
  const std::vector<paddle::experimental::Tensor>& tensors);
 
@@ -47,6 +47,9 @@ std::unordered_map<std::string, std::vector<std::string>>
 static std::unordered_map<std::string, paddle::framework::AttributeMap>
  operators_with_attrs = {};
 
+static std::unordered_set<std::string> ops_to_fill_zero_for_empty_grads = {
+ "split"};
+
 static std::string LegalizeVariableName(const std::string& var_name) {
  std::string ret = var_name;
  std::replace(ret.begin(), ret.end(), '-', '_'); // replace all '-' to '_'
@@ -2053,10 +2056,18 @@ static std::string GenerateGradNodeCCContents(
  // [Generation] Get Full Grad Function
  const char* GRAD_FUNCTION_TEMPLATE =
  "std::vector<std::vector<paddle::experimental::Tensor>> "
- "GradNode%s::operator()(const "
- "std::vector<std::vector<paddle::experimental::Tensor>>& grads) {\n%s\n}";
- std::string grad_function_str = paddle::string::Sprintf(
- GRAD_FUNCTION_TEMPLATE, fwd_op_type, generated_grad_function_body);
+ "GradNode%s::operator()("
+ "std::vector<std::vector<paddle::experimental::Tensor>>& grads) {\n"
+ "%s"
+ "%s"
+ "\n}";
+ std::string fill_zero_str = "";
+ if (ops_to_fill_zero_for_empty_grads.count(fwd_op_type)) {
+ fill_zero_str = "egr::EagerUtils::FillZeroForEmptyGradInputs(&grads);\n";
+ }
+ std::string grad_function_str =
+ paddle::string::Sprintf(GRAD_FUNCTION_TEMPLATE, fwd_op_type,
+ fill_zero_str, generated_grad_function_body);
 
  VLOG(6) << "Generated returns";
 
@@ -2086,7 +2097,7 @@ static std::string GenerateGradNodeHeaderContents(
  " ~GradNode%s() override = default;\n"
  "\n"
  " virtual std::vector<std::vector<paddle::experimental::Tensor>> "
- "operator()(const "
+ "operator()("
  "std::vector<std::vector<paddle::experimental::Tensor>>& grads) "
  "override;\n"
  "\n"
 
@@ -17,6 +17,8 @@
 import argparse
 import os
 
+ops_to_fill_zero_for_empty_grads = set()
+
 # For API dispatch used at python-level
 # { op_name : [arg_name, ...] }
 core_ops_returns_info = {}
@@ -513,7 +515,7 @@ class {} : public egr::GradNodeBase {{
  ~{}() override = default;
 
  virtual std::vector<std::vector<paddle::experimental::Tensor>> operator()(
- const std::vector<std::vector<paddle::experimental::Tensor>>& grads) override;
+ std::vector<std::vector<paddle::experimental::Tensor>>& grads) override;
  
  // SetTensorWrapperX, SetTensorWrapperY, ...
  {}
@@ -558,10 +560,11 @@ def GenerateNodeDefinition(fwd_api_name, bwd_api_name, backward_fwd_input_map,
  for _, (ttype, fwd_position,
  grad_api_position) in backward_grad_input_map.items():
  if IsPlainTensorType(ttype):
- grad_api_args[grad_api_position] = f"grads[{fwd_position}][0]"
+ grad_api_args[
+ grad_api_position] = f"hooked_grads[{fwd_position}][0]"
  else:
  assert IsVectorTensorType(ttype)
- grad_api_args[grad_api_position] = f"grads[{fwd_position}]"
+ grad_api_args[grad_api_position] = f"hooked_grads[{fwd_position}]"
 
  for name, _, _, grad_api_position in backward_attrs_list:
  saved_attribute_name = GetSavedName(name)
@@ -588,16 +591,24 @@ def GenerateNodeDefinition(fwd_api_name, bwd_api_name, backward_fwd_input_map,
  returns_str += f"return returns;\n"
 
  grad_node_name = GetGradNodeName(fwd_api_name)
+ fill_zero_str = ""
+ if fwd_api_name in ops_to_fill_zero_for_empty_grads:
+ fill_zero_str = "egr::EagerUtils::FillZeroForEmptyGradInputs(&grads);\n"
+
  FUNCTION_TEMPLATE = """
-std::vector<std::vector<paddle::experimental::Tensor>> {}::operator()(const std::vector<std::vector<paddle::experimental::Tensor>>& grads) {{
+std::vector<std::vector<paddle::experimental::Tensor>> {}::operator()(std::vector<std::vector<paddle::experimental::Tensor>>& grads) {{
+ {}
+ auto hooked_grads = ApplyGradientHooks(grads);
+ 
  // Call grad_api function
  auto grad_api_returns = paddle::experimental::{}({});
  {}
 }}
  """
 
  node_definition_str = FUNCTION_TEMPLATE.format(
- grad_node_name, bwd_api_name, grad_api_args_str, returns_str)
+ grad_node_name, fill_zero_str, bwd_api_name, grad_api_args_str,
+ returns_str)
 
  return node_definition_str
 
 
@@ -103,7 +103,7 @@ class GradNodeBase {
  * is better choice to fit this format.
  * **/
  virtual std::vector<std::vector<paddle::experimental::Tensor>> operator()(
- const std::vector<std::vector<paddle::experimental::Tensor>>& grads) = 0;
+ std::vector<std::vector<paddle::experimental::Tensor>>& grads) = 0;
 
  /**
  * AddEdges is designed to set input tensors' backward Node as current
 
@@ -52,7 +52,7 @@ class GradTensorHolder {
  return buffer_[pos];
  }
 
- const std::vector<std::vector<paddle::experimental::Tensor>>& Buffers() {
+ std::vector<std::vector<paddle::experimental::Tensor>>& Buffers() {
  return buffer_;
  }
 
 
@@ -80,13 +80,15 @@ TEST(AccumulationNode, Tensor) {
  grad_meta->SetStopGradient(false);
 
  // operator()
- paddle::experimental::Tensor ret_et0 = node->operator()({{et0}})[0][0];
+ std::vector<std::vector<paddle::experimental::Tensor>> et0_vec = {{et0}};
+ paddle::experimental::Tensor ret_et0 = node->operator()(et0_vec)[0][0];
  auto* ret_et0_ptr =
  std::dynamic_pointer_cast<phi::DenseTensor>(ret_et0.impl())
  ->data<paddle::platform::float16>();
  CHECK_EQ(ret_et0_ptr[0], paddle::platform::float16(10.0f));
 
- paddle::experimental::Tensor ret_et1 = node->operator()({{et1}})[0][0];
+ std::vector<std::vector<paddle::experimental::Tensor>> et1_vec = {{et1}};
+ paddle::experimental::Tensor ret_et1 = node->operator()(et1_vec)[0][0];
 
  auto* ret_et1_ptr =
  std::dynamic_pointer_cast<phi::DenseTensor>(ret_et1.impl())
@@ -121,7 +123,7 @@ TEST(AccumulationNode, Tensor) {
  std::make_shared<egr::CppTensorVoidHook>(reduce_hook_1));
 
  // operator()
- paddle::experimental::Tensor _ret = node->operator()({{et0}})[0][0];
+ paddle::experimental::Tensor _ret = node->operator()(et0_vec)[0][0];
 
  // Check operator() result, should be 36.0
  auto* _ret_ptr = std::dynamic_pointer_cast<phi::DenseTensor>(_ret.impl())
 
@@ -31,8 +31,7 @@ class GradTestNode : public egr::GradNodeBase {
  : GradNodeBase(in_num, out_num), val_(val) {}
  GradTestNode() : GradNodeBase() { val_ = 1.0; }
  std::vector<std::vector<paddle::experimental::Tensor>> operator()(
- const std::vector<std::vector<paddle::experimental::Tensor>>& grads)
- override {
+ std::vector<std::vector<paddle::experimental::Tensor>>& grads) override {
  val_ = std::dynamic_pointer_cast<phi::DenseTensor>(grads[0][0].impl())
  ->data<float>()[0];
  phi::DenseTensorMeta meta =
Original file line number	Diff line number	Diff line change
`@@ -39,8 +39,7 @@ static void CopyOrAddTensor(paddle::experimental::Tensor* tensor,`
`39`	`39`	`}`
`40`	`40`
`41`	`41`	`std::vector<std::vector<paddle::experimental::Tensor>> GradNodeAccumulation::`
`42`		`-operator()(`
`43`		`- const std::vector<std::vector<paddle::experimental::Tensor>>& grads) {`
	`42`	`+operator()(std::vector<std::vector<paddle::experimental::Tensor>>& grads) {`
`44`	`43`	`VLOG(3) << "Running Eager Backward Node: GradNodeAccumulation";`
`45`	`44`	`PADDLE_ENFORCE(grads.size() == 1,`
`46`	`45`	`paddle::platform::errors::Fatal(`
Original file line number	Diff line number	Diff line change
`@@ -52,7 +52,7 @@ class GradTensorHolder {`
`52`	`52`	`return buffer_[pos];`
`53`	`53`	`}`
`54`	`54`
`55`		`- const std::vector<std::vector<paddle::experimental::Tensor>>& Buffers() {`
	`55`	`+ std::vector<std::vector<paddle::experimental::Tensor>>& Buffers() {`
`56`	`56`	`return buffer_;`
`57`	`57`	`}`
`58`	`58`