PaddlePaddle
diff --git a/‎paddle/fluid/inference/tensorrt/plugin/qkv_to_context_plugin.cu‎
Lines changed: 5 additions & 3 deletions b/‎paddle/fluid/inference/tensorrt/plugin/qkv_to_context_plugin.cu‎
Lines changed: 5 additions & 3 deletions
@@ -229,7 +229,9 @@ template <typename T>
 __global__ void apply_scale(T *data, T scale, int n) {
 #if CUDA_ARCH_FP16_SUPPORTED(__CUDA_ARCH__)
  int tid = blockIdx.x * blockDim.x + threadIdx.x;
- data[tid] = data[tid] * scale;
+ if (tid < n) {
+ data[tid] = data[tid] * scale;
+ }
 #endif
 }
 
@@ -347,8 +349,8 @@ int QkvToContextPluginDynamic::enqueue(
  platform::CUDAPlace(device_id)));
 
  int n_q = seq_len * head_number_ * head_size_ * batch;
- int threads = head_number_ * head_size_ * batch;
- int blocks = seq_len;
+ constexpr int threads = 128;
+ int blocks = (n_q + threads - 1) / threads;
 
  apply_scale<<<blocks, threads, 0, stream>>>(tptr, static_cast<half>(scale_),
  n_q);