my change for merge 4 to 1

PaddlePaddle · ZHUI · Oct 23, 2024 · Sep 14, 2024 · Sep 14, 2024 · Sep 19, 2024
commit a42157d67b2fbf18d499abb301102259662889af
diff --git a/csrc/gpu/append_attention.cu b/csrc/gpu/append_attention.cu
diff --git a/csrc/gpu/append_attn/append_attention_func.cuh b/csrc/gpu/append_attn/append_attention_func.cuh
@@ -658,7 +658,7 @@ __device__ __forceinline__ void block_produce_kv(
     smem_t smem,
     uint32_t* smem_offset,
     T* gptr_base,  // [max_block_num, num_heads, block_size, head_dim]
-    const int* block_table,
+    const int* block_tables,
     const uint32_t kv_head_idx,
     const uint32_t kv_n_stride,
     const uint32_t kv_h_stride,
@@ -676,7 +676,7 @@ __device__ __forceinline__ void block_produce_kv(
           kv_idx_base + (i * 4 * num_warps + ty * 4 + tx / 8);
       const uint32_t kv_n_idx = row_now / block_size;
       const uint32_t kv_bid = row_now % block_size;
-      T* gptr = gptr_base + __ldg(&block_table[kv_n_idx]) * kv_n_stride +
+      T* gptr = gptr_base + __ldg(&block_tables[kv_n_idx]) * kv_n_stride +
                 kv_head_idx * kv_h_stride + kv_bid * kv_b_stride +
                 tx % 8 * num_elems_per_128b<T>();
 #pragma unroll
@@ -703,7 +703,7 @@ __device__ __forceinline__ void block_produce_kv(
         const uint32_t row_now = kv_idx_base + (i * 16 + j * 4 + row_id_per_tx);
         const uint32_t kv_n_idx = row_now / block_size;
         const uint32_t kv_bid = row_now % block_size;
-        T* gptr = gptr_base + __ldg(&block_table[kv_n_idx]) * kv_n_stride +
+        T* gptr = gptr_base + __ldg(&block_tables[kv_n_idx]) * kv_n_stride +
                   kv_head_idx * kv_h_stride + kv_bid * kv_b_stride +
                   col_id_per_tx * num_elems_per_128b<T>();
 #pragma unroll

diff --git a/csrc/gpu/append_attn/append_attention_impl.cuh b/csrc/gpu/append_attn/append_attention_impl.cuh
@@ -26,7 +26,7 @@ __global__ void multi_query_append_attention_kernel(
     const int *__restrict__ batch_ids,
     const int *__restrict__ tile_ids_per_batch,
     const int *__restrict__ cum_offsets,
-    const int *__restrict__ block_table,  // [bsz, block_num_per_seq]
+    const int *__restrict__ block_tables,  // [bsz, block_num_per_seq]
     const int max_seq_len,
     const int max_dec_len,
     const int max_block_num_per_seq,
@@ -52,7 +52,7 @@ __global__ void multi_query_append_attention_kernel(
   const uint32_t num_rows_per_block = NUM_WARPS * num_frags_x * 16;
   const int *block_table_now = nullptr;
 
-  block_table_now = block_table + batch_id * max_block_num_per_seq;
+  block_table_now = block_tables + batch_id * max_block_num_per_seq;
 
   const uint32_t q_len = seq_lens[batch_id];
   if (q_len <= 0) {
@@ -491,7 +491,7 @@ __global__ void multi_query_append_attention_warp1_4_kernel(
     const int *__restrict__ batch_ids,
     const int *__restrict__ tile_ids_per_batch,
     const int *__restrict__ cum_offsets,
-    const int *__restrict__ block_table,  // [bsz, block_num_per_seq]
+    const int *__restrict__ block_tables,  // [bsz, block_num_per_seq]
     const int max_seq_len,
     const int max_dec_len,
     const int max_block_num_per_seq,
@@ -520,7 +520,7 @@ __global__ void multi_query_append_attention_warp1_4_kernel(
   const uint32_t batch_id = batch_ids[btid];
   const uint32_t tile_id = tile_ids_per_batch[btid];
   const uint32_t num_rows_per_block = num_frags_x * 16;
-  const int *block_table_now = block_table + batch_id * max_block_num_per_seq;
+  const int *block_table_now = block_tables + batch_id * max_block_num_per_seq;
 
   const uint32_t q_len = seq_lens[batch_id];
   if (q_len <= 0) {
@@ -1113,7 +1113,7 @@ __global__ void multi_query_append_attention_c8_kernel(
     const int *__restrict__ batch_ids,
     const int *__restrict__ tile_ids_per_batch,
     const int *__restrict__ cum_offsets,
-    const int *__restrict__ block_table,  // [bsz, block_num_per_seq]
+    const int *__restrict__ block_tables,  // [bsz, block_num_per_seq]
     const int max_seq_len,
     const int max_dec_len,
     const int max_block_num_per_seq,
@@ -1166,7 +1166,7 @@ __global__ void multi_query_append_attention_c8_kernel(
   const uint32_t num_rows_per_block = NUM_WARPS * num_frags_x * 16;
   const int *block_table_now = nullptr;
 
-  block_table_now = block_table + batch_id * max_block_num_per_seq;
+  block_table_now = block_tables + batch_id * max_block_num_per_seq;
 
   const uint32_t q_len = seq_lens[batch_id];
   if (q_len <= 0) {
@@ -1731,7 +1731,7 @@ __global__ void multi_query_append_attention_c8_warp1_4_kernel(
     const int *__restrict__ batch_ids,
     const int *__restrict__ tile_ids_per_batch,
     const int *__restrict__ cum_offsets,
-    const int *__restrict__ block_table,  // [bsz, block_num_per_seq]
+    const int *__restrict__ block_tables,  // [bsz, block_num_per_seq]
     const int max_seq_len,
     const int max_dec_len,
     const int max_block_num_per_seq,
@@ -1782,7 +1782,7 @@ __global__ void multi_query_append_attention_c8_warp1_4_kernel(
   const uint32_t batch_id = batch_ids[btid];
   const uint32_t tile_id = tile_ids_per_batch[btid];
   const uint32_t num_rows_per_block = num_frags_x * 16;
-  const int *block_table_now = block_table + batch_id * max_block_num_per_seq;
+  const int *block_table_now = block_tables + batch_id * max_block_num_per_seq;
 
   const uint32_t q_len = seq_lens[batch_id];
   if (q_len <= 0) {
@@ -2457,7 +2457,7 @@ __global__ void multi_query_append_attention_c4_kernel(
     const int *__restrict__ batch_ids,
     const int *__restrict__ tile_ids_per_batch,
     const int *__restrict__ cum_offsets,
-    const int *__restrict__ block_table,  // [bsz, block_num_per_seq]
+    const int *__restrict__ block_tables,  // [bsz, block_num_per_seq]
     const int max_seq_len,
     const int max_dec_len,
     const int max_block_num_per_seq,
@@ -2503,7 +2503,7 @@ __global__ void multi_query_append_attention_c4_kernel(
   const uint32_t num_rows_per_block = NUM_WARPS * num_frags_x * 16;
   const int *block_table_now = nullptr;
 
-  block_table_now = block_table + batch_id * max_block_num_per_seq;
+  block_table_now = block_tables + batch_id * max_block_num_per_seq;
 
   const uint32_t q_len = seq_lens[batch_id];
   if (q_len <= 0) {
@@ -3129,7 +3129,7 @@ __global__ void multi_query_append_attention_c4_warp1_4_kernel(
     const int *__restrict__ batch_ids,
     const int *__restrict__ tile_ids_per_batch,
     const int *__restrict__ cum_offsets,
-    const int *__restrict__ block_table,  // [bsz, block_num_per_seq]
+    const int *__restrict__ block_tables,  // [bsz, block_num_per_seq]
     const int max_seq_len,
     const int max_dec_len,
     const int max_block_num_per_seq,
@@ -3177,7 +3177,7 @@ __global__ void multi_query_append_attention_c4_warp1_4_kernel(
   const uint32_t batch_id = batch_ids[btid];
   const uint32_t tile_id = tile_ids_per_batch[btid];
   const uint32_t num_rows_per_block = num_frags_x * 16;
-  const int *block_table_now = block_table + batch_id * max_block_num_per_seq;
+  const int *block_table_now = block_tables + batch_id * max_block_num_per_seq;
 
   const uint32_t q_len = seq_lens[batch_id];
   if (q_len <= 0) {

diff --git a/csrc/gpu/append_attn/append_attention_kernel.cu b/csrc/gpu/append_attn/append_attention_kernel.cu
@@ -38,7 +38,7 @@ void MultiQueryAppendAttention(
     const paddle::Tensor& seq_lens_encoder,
     const paddle::Tensor& padding_offsets,
     const paddle::Tensor& cum_offsets,
-    const paddle::Tensor& block_table,
+    const paddle::Tensor& block_tables,
     const paddle::Tensor& batch_ids,
     const paddle::Tensor& tile_ids_per_batch,
     const int num_blocks_x_cpu,
@@ -63,7 +63,7 @@ void MultiQueryAppendAttention(
   const auto& cum_offsets_dims = cum_offsets.dims();
   const uint32_t token_num = q_dims[0];
   const uint32_t bsz = cum_offsets_dims[0];
-  const uint32_t max_block_num_per_seq = block_table.dims()[1];
+  const uint32_t max_block_num_per_seq = block_tables.dims()[1];
 
   constexpr uint32_t num_warps = 4;
   constexpr uint32_t NUM_WARP_KV = num_warps / NUM_WARP_Q;
@@ -158,7 +158,7 @@ void MultiQueryAppendAttention(
           batch_ids.data<int>(),
           tile_ids_per_batch.data<int>(),
           cum_offsets.data<int>(),
-          block_table.data<int>(),
+          block_tables.data<int>(),
           max_seq_len,
           max_dec_len,
           max_block_num_per_seq,
@@ -212,7 +212,7 @@ void MultiQueryAppendAttention(
           batch_ids.data<int>(),
           tile_ids_per_batch.data<int>(),
           cum_offsets.data<int>(),
-          block_table.data<int>(),
+          block_tables.data<int>(),
           max_seq_len,
           max_dec_len,
           max_block_num_per_seq,
@@ -380,7 +380,7 @@ void MultiQueryAppendAttention(
           batch_ids.data<int>(),
           tile_ids_per_batch.data<int>(),
           cum_offsets.data<int>(),
-          block_table.data<int>(),
+          block_tables.data<int>(),
           max_seq_len,
           max_dec_len,
           max_block_num_per_seq,
@@ -448,7 +448,7 @@ void MultiQueryAppendAttention(
           batch_ids.data<int>(),
           tile_ids_per_batch.data<int>(),
           cum_offsets.data<int>(),
-          block_table.data<int>(),
+          block_tables.data<int>(),
           max_seq_len,
           max_dec_len,
           max_block_num_per_seq,
@@ -560,7 +560,7 @@ void MultiQueryAppendC8Attention(
     const paddle::Tensor& seq_lens_encoder,
     const paddle::Tensor& padding_offsets,
     const paddle::Tensor& cum_offsets,
-    const paddle::Tensor& block_table,
+    const paddle::Tensor& block_tables,
     const paddle::Tensor& batch_ids,
     const paddle::Tensor& tile_ids_per_batch,
     const int num_blocks_x_cpu,
@@ -589,7 +589,7 @@ void MultiQueryAppendC8Attention(
   const auto& cum_offsets_dims = cum_offsets.dims();
   const uint32_t token_num = q_dims[0];
   const uint32_t bsz = cum_offsets_dims[0];
-  const uint32_t max_block_num_per_seq = block_table.dims()[1];
+  const uint32_t max_block_num_per_seq = block_tables.dims()[1];
 
   constexpr uint32_t num_warps = 4;
   constexpr uint32_t NUM_WARP_KV = num_warps / NUM_WARP_Q;
@@ -705,7 +705,7 @@ void MultiQueryAppendC8Attention(
           batch_ids.data<int>(),
           tile_ids_per_batch.data<int>(),
           cum_offsets.data<int>(),
-          block_table.data<int>(),
+          block_tables.data<int>(),
           max_seq_len,
           max_dec_len,
           max_block_num_per_seq,
@@ -770,7 +770,7 @@ void MultiQueryAppendC8Attention(
           batch_ids.data<int>(),
           tile_ids_per_batch.data<int>(),
           cum_offsets.data<int>(),
-          block_table.data<int>(),
+          block_tables.data<int>(),
           max_seq_len,
           max_dec_len,
           max_block_num_per_seq,
@@ -961,7 +961,7 @@ void MultiQueryAppendC8Attention(
           batch_ids.data<int>(),
           tile_ids_per_batch.data<int>(),
           cum_offsets.data<int>(),
-          block_table.data<int>(),
+          block_tables.data<int>(),
           max_seq_len,
           max_dec_len,
           max_block_num_per_seq,
@@ -1034,7 +1034,7 @@ void MultiQueryAppendC8Attention(
           batch_ids.data<int>(),
           tile_ids_per_batch.data<int>(),
           cum_offsets.data<int>(),
-          block_table.data<int>(),
+          block_tables.data<int>(),
           max_seq_len,
           max_dec_len,
           max_block_num_per_seq,
@@ -1144,7 +1144,7 @@ void MultiQueryAppendC4Attention(
     const paddle::Tensor& seq_lens_encoder,
     const paddle::Tensor& padding_offsets,
     const paddle::Tensor& cum_offsets,
-    const paddle::Tensor& block_table,
+    const paddle::Tensor& block_tables,
     const paddle::Tensor& batch_ids,
     const paddle::Tensor& tile_ids_per_batch,
     const int num_blocks_x_cpu,
@@ -1169,7 +1169,7 @@ void MultiQueryAppendC4Attention(
   const auto& cum_offsets_dims = cum_offsets.dims();
   const uint32_t token_num = q_dims[0];
   const uint32_t bsz = cum_offsets_dims[0];
-  const uint32_t max_block_num_per_seq = block_table.dims()[1];
+  const uint32_t max_block_num_per_seq = block_tables.dims()[1];
 
   constexpr uint32_t num_warps = 4;
   constexpr uint32_t NUM_WARP_KV = num_warps / NUM_WARP_Q;
@@ -1275,7 +1275,7 @@ void MultiQueryAppendC4Attention(
           batch_ids.data<int>(),
           tile_ids_per_batch.data<int>(),
           cum_offsets.data<int>(),
-          block_table.data<int>(),
+          block_tables.data<int>(),
           max_seq_len,
           max_dec_len,
           max_block_num_per_seq,
@@ -1336,7 +1336,7 @@ void MultiQueryAppendC4Attention(
           batch_ids.data<int>(),
           tile_ids_per_batch.data<int>(),
           cum_offsets.data<int>(),
-          block_table.data<int>(),
+          block_tables.data<int>(),
           max_seq_len,
           max_dec_len,
           max_block_num_per_seq,
@@ -1513,7 +1513,7 @@ void MultiQueryAppendC4Attention(
           batch_ids.data<int>(),
           tile_ids_per_batch.data<int>(),
           cum_offsets.data<int>(),
-          block_table.data<int>(),
+          block_tables.data<int>(),
           max_seq_len,
           max_dec_len,
           max_block_num_per_seq,
@@ -1587,7 +1587,7 @@ void MultiQueryAppendC4Attention(
           batch_ids.data<int>(),
           tile_ids_per_batch.data<int>(),
           cum_offsets.data<int>(),
-          block_table.data<int>(),
+          block_tables.data<int>(),
           max_seq_len,
           max_dec_len,
           max_block_num_per_seq,
@@ -1698,7 +1698,7 @@ void CascadeAppendAttentionKernel(
     const paddle::Tensor& seq_lens_encoder,
     const paddle::Tensor& padding_offsets,
     const paddle::Tensor& cum_offsets,
-    const paddle::Tensor& block_table,
+    const paddle::Tensor& block_tables,
     const paddle::Tensor& batch_ids,
     const paddle::Tensor& tile_ids_per_batch,
     const std::string& cache_quant_type_str,
@@ -1760,7 +1760,7 @@ void CascadeAppendAttentionKernel(
                             seq_lens_encoder,
                             padding_offsets,
                             cum_offsets,
-                            block_table,
+                            block_tables,
                             batch_ids,
                             tile_ids_per_batch,
                             num_blocks,
@@ -1802,7 +1802,7 @@ void CascadeAppendAttentionKernel(
                                 seq_lens_encoder,
                                 padding_offsets,
                                 cum_offsets,
-                                block_table,
+                                block_tables,
                                 batch_ids,
                                 tile_ids_per_batch,
                                 num_blocks,
@@ -1841,7 +1841,7 @@ void CascadeAppendAttentionKernel(
                                 seq_lens_encoder,
                                 padding_offsets,
                                 cum_offsets,
-                                block_table,
+                                block_tables,
                                 batch_ids,
                                 tile_ids_per_batch,
                                 num_blocks,
@@ -1887,7 +1887,7 @@ template void CascadeAppendAttentionKernel<paddle::bfloat16, int8_t>(
     const paddle::Tensor& seq_lens_encoder,
     const paddle::Tensor& padding_offsets,
     const paddle::Tensor& cum_offsets,
-    const paddle::Tensor& block_table,
+    const paddle::Tensor& block_tables,
     const paddle::Tensor& batch_ids,
     const paddle::Tensor& tile_ids_per_batch,
     const std::string& cache_quant_type_str,
@@ -1932,7 +1932,7 @@ template void CascadeAppendAttentionKernel<paddle::bfloat16, paddle::bfloat16>(
     const paddle::Tensor& seq_lens_encoder,
     const paddle::Tensor& padding_offsets,
     const paddle::Tensor& cum_offsets,
-    const paddle::Tensor& block_table,
+    const paddle::Tensor& block_tables,
     const paddle::Tensor& batch_ids,
     const paddle::Tensor& tile_ids_per_batch,
     const std::string& cache_quant_type_str,

diff --git a/csrc/gpu/append_attn/append_attention_kernel.h b/csrc/gpu/append_attn/append_attention_kernel.h
@@ -41,7 +41,7 @@ void CascadeAppendAttentionKernel(
     const paddle::Tensor& seq_lens_encoder,
     const paddle::Tensor& padding_offsets,
     const paddle::Tensor& cum_offsets,
-    const paddle::Tensor& block_table,
+    const paddle::Tensor& block_tables,
     const paddle::Tensor& batch_ids,
     const paddle::Tensor& tile_ids_per_batch,
     const std::string& cache_quant_type_str,