Merge branch 'develop' of https://github.com/PaddlePaddle/PaddleNLP i…

…nto append_attn
PaddlePaddle · ZHUI · Oct 23, 2024 · Sep 14, 2024 · Sep 14, 2024 · Sep 19, 2024
commit 83a19a6465bfb774ff3c3c57febc5f53b2281462
diff --git a/csrc/setup_cuda.py b/csrc/setup_cuda.py
@@ -113,6 +113,7 @@ def get_gencode_flags():
     "./gpu/append_attn/append_attention_kernel.cu",
     "./gpu/append_attn/encoder_write_cache_with_rope_kernel.cu",
     "./gpu/append_attn/decoder_write_cache_with_rope_kernel.cu",
+    "./gpu/sample_kernels/top_p_sampling_reject.cu",
 ]
 
 cutlass_dir = "third_party/cutlass"

diff --git a/paddlenlp/experimental/transformers/fused_transformer_layers.py b/paddlenlp/experimental/transformers/fused_transformer_layers.py
@@ -2050,21 +2050,18 @@ def compute_mmha(self, qkv_out, caches, attn_mask, seq_lens, rotary_embs, rotary
         )[0]
 
     def compute_out_linear(self, fmha_out, i):
-        if paddle.is_compiled_with_rocm():
-            out_linear_out = paddle.matmul(fmha_out, self.linear_weights[i])
-            out_linear_out = dequant_int8(out_linear_out, self.linear_out_scales[i], self._dtype)
-        else:
-            try:
-                from paddlenlp_ops import gemm_dequant
-                out_linear_out = gemm_dequant(fmha_out, self.linear_weights[i], self.linear_out_scales[i], self._dtype)
-            except:
+        if self.skip_quant("out_linear_weight_scale", i):
+            if paddle.is_compiled_with_rocm():
+                out_linear_out = paddle.matmul(fmha_out, self.linear_weights[i])
+            else:
                 out_linear_out = paddle.matmul(fmha_out, self.linear_weights[i], False, True)
         else:
             if paddle.is_compiled_with_rocm():
                 out_linear_out = paddle.matmul(fmha_out, self.linear_weights[i])
                 out_linear_out = dequant_int8(out_linear_out, self.linear_out_scales[i], self._dtype)
             else:
                 try:
+                    from paddlenlp_ops import gemm_dequant
                     out_linear_out = gemm_dequant(
                         fmha_out, self.linear_weights[i], self.linear_out_scales[i], self._dtype
                     )
@@ -2113,21 +2110,18 @@ def compute_ffn1(self, tmp_out, i):
             return paddle.matmul(tmp_out, self.ffn1_weights[i], False, True)
 
     def compute_ffn2(self, ffn1_out, i):
-        if paddle.device.is_compiled_with_rocm():
-            ffn2_out = paddle.matmul(ffn1_out, self.ffn2_weights[i])
-            ffn2_out = dequant_int8(ffn2_out, self.ffn2_out_scales[i], self._dtype)
-        else:
-            try:
-                from paddlenlp_ops import gemm_dequant
-                ffn2_out = gemm_dequant(ffn1_out, self.ffn2_weights[i], self.ffn2_out_scales[i], self._dtype)
-            except:
+        if self.skip_quant("ffn2_weight_scale", i):
+            if paddle.device.is_compiled_with_rocm():
+                ffn2_out = paddle.matmul(ffn1_out, self.ffn2_weights[i])
+            else:
                 ffn2_out = paddle.matmul(ffn1_out, self.ffn2_weights[i], False, True)
         else:
             if paddle.device.is_compiled_with_rocm():
                 ffn2_out = paddle.matmul(ffn1_out, self.ffn2_weights[i])
                 ffn2_out = dequant_int8(ffn2_out, self.ffn2_out_scales[i], self._dtype)
             else:
                 try:
+                    from paddlenlp_ops import gemm_dequant
                     ffn2_out = gemm_dequant(ffn1_out, self.ffn2_weights[i], self.ffn2_out_scales[i], self._dtype)
                 except:
                     ffn2_out = paddle.matmul(ffn1_out, self.ffn2_weights[i], False, True)

diff --git a/paddlenlp/experimental/transformers/llama/modeling.py b/paddlenlp/experimental/transformers/llama/modeling.py
@@ -1237,7 +1237,10 @@ def set_state_dict(self, state_dict):
 
                 for k, v in cache_scales_loader.scale.items():
                     for i_layer, weight_scale in enumerate(v):
-                        weight_scale = weight_scale.astype("float32")
+                        if self.config.append_attn:
+                            weight_scale = paddle.to_tensor(weight_scale).cast(paddle.get_default_dtype())
+                        else:
+                            weight_scale = weight_scale.astype("float32")
                         if k == "cache_k_scale":
                             self.transformer_block.cache_k_scales[i_layer].set_value(weight_scale)
                         elif k == "cache_v_scale":
@@ -1247,24 +1250,10 @@ def set_state_dict(self, state_dict):
                         else:
                             self.transformer_block.cache_v_out_scales[i_layer].set_value(weight_scale)
 
-                    for k, v in cache_scales_loader.scale.items():
-                        for i_layer, weight_scale in enumerate(v):
-                            if self.config.append_attn:
-                                weight_scale = paddle.to_tensor(weight_scale).cast(paddle.get_default_dtype())
-                            else:
-                                weight_scale = weight_scale.astype("float32")
-                            if k == "cache_k_scale":
-                                self.transformer_block.cache_k_scales[i_layer].set_value(weight_scale)
-                            elif k == "cache_v_scale":
-                                self.transformer_block.cache_v_scales[i_layer].set_value(weight_scale)
-                            elif k == "cache_k_out_scale":
-                                self.transformer_block.cache_k_out_scales[i_layer].set_value(weight_scale)
-                            else:
-                                self.transformer_block.cache_v_out_scales[i_layer].set_value(weight_scale)
-
-                for k, v in weight_scales_loader.scale.items():
-                    if "qkv_" in k:
-                        for i_layer, weight_scale in enumerate(v):
+            for k, v in weight_scales_loader.scale.items():
+                if "qkv_" in k:
+                    for i_layer, weight_scale in enumerate(v):
+                        if not np.all(weight_scale == -1):
                             tmp = paddle.to_tensor(
                                 weight_scale
                                 / (

diff --git a/paddlenlp/experimental/transformers/qwen2/modeling.py b/paddlenlp/experimental/transformers/qwen2/modeling.py
@@ -829,7 +829,10 @@ def set_state_dict(self, state_dict):
 
                 for k, v in cache_scales_loader.scale.items():
                     for i_layer, weight_scale in enumerate(v):
-                        weight_scale = weight_scale.astype("float32")
+                        if self.config.append_attn:
+                            weight_scale = paddle.to_tensor(weight_scale).cast(paddle.get_default_dtype())
+                        else:
+                            weight_scale = weight_scale.astype("float32")
                         if k == "cache_k_scale":
                             self.transformer_block.cache_k_scales[i_layer].set_value(weight_scale)
                         elif k == "cache_v_scale":
@@ -839,24 +842,10 @@ def set_state_dict(self, state_dict):
                         else:
                             self.transformer_block.cache_v_out_scales[i_layer].set_value(weight_scale)
 
-                    for k, v in cache_scales_loader.scale.items():
-                        for i_layer, weight_scale in enumerate(v):
-                            if self.config.append_attn:
-                                weight_scale = paddle.to_tensor(weight_scale).cast(paddle.get_default_dtype())
-                            else:
-                                weight_scale = weight_scale.astype("float32")
-                            if k == "cache_k_scale":
-                                self.transformer_block.cache_k_scales[i_layer].set_value(weight_scale)
-                            elif k == "cache_v_scale":
-                                self.transformer_block.cache_v_scales[i_layer].set_value(weight_scale)
-                            elif k == "cache_k_out_scale":
-                                self.transformer_block.cache_k_out_scales[i_layer].set_value(weight_scale)
-                            else:
-                                self.transformer_block.cache_v_out_scales[i_layer].set_value(weight_scale)
-
-                for k, v in weight_scales_loader.scale.items():
-                    if "qkv_" in k:
-                        for i_layer, weight_scale in enumerate(v):
+            for k, v in weight_scales_loader.scale.items():
+                if "qkv_" in k:
+                    for i_layer, weight_scale in enumerate(v):
+                        if not np.all(weight_scale == -1):
                             tmp = paddle.to_tensor(
                                 weight_scale
                                 / (