c16/c8/c4 分离编译加快编译速度

PaddlePaddle · ZHUI · Oct 23, 2024 · Sep 14, 2024 · Sep 14, 2024 · Sep 19, 2024
commit 4a4a4b4ddc55cde9fe6876e9f9289de2dedb04fa
diff --git a/csrc/gpu/append_attention.cu b/csrc/gpu/append_attention.cu
@@ -425,7 +425,8 @@ std::vector<paddle::Tensor> AppendAttention(
   meta_data.token_nums = qkv_dims[0];
   meta_data.kv_num_heads = key_cache_dims[1];
   meta_data.head_dims = key_cache_dims[3];
-  const int total_num_head = qkv_dims[qkv_dims.size() - 1] / meta_data.head_dims;
+  const int total_num_head =
+      qkv_dims[qkv_dims.size() - 1] / meta_data.head_dims;
   meta_data.q_num_heads = total_num_head - 2 * meta_data.kv_num_heads;
 
   meta_data.max_blocks_per_seq = block_tables.dims()[1];