diff --git a/docs/api/paddle/Overview_cn.rst b/docs/api/paddle/Overview_cn.rst
index 5a28ebe994a..e7bbbcc3fbe 100755
--- a/docs/api/paddle/Overview_cn.rst
+++ b/docs/api/paddle/Overview_cn.rst
@@ -360,6 +360,7 @@ tensor 创建相关
     " :ref:`paddle.eye <cn_api_paddle_eye>` ", "构建二维 Tensor(主对角线元素为 1，其他元素为 0)"
     " :ref:`paddle.full <cn_api_paddle_full>` ", "创建形状大小为 shape 并且数据类型为 dtype 的 Tensor"
     " :ref:`paddle.full_like <cn_api_paddle_full_like>` ", "创建一个和 x 具有相同的形状并且数据类型为 dtype 的 Tensor"
+    " :ref:`paddle.kaiser_window <cn_api_paddle_kaiser_window>` ", "计算 Kaiser 窗"
     " :ref:`paddle.linspace <cn_api_paddle_linspace>` ", "返回一个 Tensor，Tensor 的值为在区间 start 和 stop 上均匀间隔的 num 个值，输出 Tensor 的长度为 num"
     " :ref:`paddle.meshgrid <cn_api_paddle_meshgrid>` ", "对每个 Tensor 做扩充操作"
     " :ref:`paddle.numel <cn_api_paddle_numel>` ", "返回一个长度为 1 并且元素值为输入 x 元素个数的 Tensor"
@@ -627,6 +628,7 @@ framework 相关
     " :ref:`paddle.get_rng_state <cn_api_paddle_get_rng_state>` ", "获取指定设备的随机数生成器的所有随机状态。"
     " :ref:`paddle.grad <cn_api_paddle_grad>` ", "对于每个 inputs ，计算所有 outputs 相对于其的梯度和"
     " :ref:`paddle.in_dynamic_mode <cn_api_paddle_in_dynamic_mode>` ", "查看 paddle 当前是否在动态图模式中运行"
+    " :ref:`paddle.inference_mode <cn_api_paddle_inference_mode>` ", "创建启用或禁用推理模式的上下文"
     " :ref:`paddle.LazyGuard <cn_api_paddle_LazyGuard>` ", "用于设置模型（继承自 ``paddle.nn.Layer`` ） 中参数延迟初始化的上下文管理器"
     " :ref:`paddle.load <cn_api_paddle_load>` ", "从指定路径载入可以在 paddle 中使用的对象实例"
     " :ref:`paddle.no_grad <cn_api_paddle_no_grad>` ", "创建一个上下文来禁用动态图梯度计算"
diff --git a/docs/api/paddle/distribution/Distribution_cn.rst b/docs/api/paddle/distribution/Distribution_cn.rst
index 3879aca666e..02c7e2ff093 100644
--- a/docs/api/paddle/distribution/Distribution_cn.rst
+++ b/docs/api/paddle/distribution/Distribution_cn.rst
@@ -3,7 +3,7 @@
 Distribution
 -------------------------------
 
-.. py:class:: paddle.distribution.Distribution()
+.. py:class:: paddle.distribution.Distribution(batch_shape=(), event_shape=(), validate_args=None)
 
 概率分布的抽象基类，在具体的分布中实现具体功能。
 
@@ -14,7 +14,55 @@ Distribution
   布 ``batch_shape=param.shape[:-1]``，其中 param 表示分布参数，支持 broadcast 语义。
 - **event_shape** - 多元概率分布维数形状。一元分布 ``event_shape=()``，多元分布
   ``event_shape=param.shape[-1:]``，其中 param 表示分布参数，支持 broadcast 语义。
+- **validate_args** (bool|None，可选) - 是否启用参数校验。默认值为 None。
 
+属性
+:::::::::
+
+arg_constraints
+'''''''''
+
+返回该概率分布参数需要满足的约束条件。
+
+**返回**
+
+dict，分布参数与其约束条件的映射。
+
+support
+'''''''''
+
+返回表示该概率分布支持集的约束对象。
+
+**返回**
+
+Constraint|None，表示支持集的约束对象。
+
+mean
+'''''''''
+
+概率分布的均值。
+
+**返回**
+
+Tensor，均值。
+
+mode
+'''''''''
+
+概率分布的众数。
+
+**返回**
+
+Tensor，众数。
+
+variance
+'''''''''
+
+概率分布的方差。
+
+**返回**
+
+Tensor，方差。
 
 方法
 :::::::::
@@ -37,6 +85,15 @@ rsample(shape=[])
 
     - **shape** (Sequence[int]，可选) - 重参数化采样的样本维度。
 
+sample_n(n)
+''''''''''
+
+从分布中生成 ``n`` 个样本。
+
+**参数**
+
+    - **n** (int) - 采样数量。
+
 entropy()
 '''''''''
 
@@ -51,6 +108,38 @@ log_prob(value)
 
     - **value** (Tensor) - 输入 Tensor。
 
+cdf(value)
+''''''''''
+
+计算 ``value`` 处的累计概率密度函数或累计概率质量函数值。
+
+**参数**
+
+    - **value** (Tensor) - 输入 Tensor。
+
+icdf(value)
+''''''''''
+
+计算 ``value`` 处的逆累计概率密度函数或逆累计概率质量函数值。
+
+**参数**
+
+    - **value** (Tensor) - 输入 Tensor。
+
+enumerate_support(expand=True)
+''''''''''''''''''''''''''''''
+
+返回离散概率分布支持集中的所有取值。
+
+**参数**
+
+    - **expand** (bool，可选) - 是否扩展结果 Tensor。默认值为 True。
+
+perplexity()
+''''''''''''
+
+返回该概率分布的困惑度。
+
 probs(value)
 '''''''''
 
@@ -68,3 +157,12 @@ kl_divergence(other)
 **参数**
 
     - **other** (Distribution) - Distribution 的实例。
+
+set_default_validate_args(value)
+''''''''''''''''''''''''''''''''
+
+设置是否默认启用参数校验。
+
+**参数**
+
+    - **value** (bool) - 是否默认启用参数校验。
diff --git a/docs/api/paddle/distribution/MultivariateNormal_cn.rst b/docs/api/paddle/distribution/MultivariateNormal_cn.rst
index 2197b92743f..9ae66354107 100644
--- a/docs/api/paddle/distribution/MultivariateNormal_cn.rst
+++ b/docs/api/paddle/distribution/MultivariateNormal_cn.rst
@@ -3,7 +3,7 @@
 MultivariateNormal
 -------------------------------
 
-.. py:class:: paddle.distribution.MultivariateNormal(loc, covariance_matrix=None, precision_matrix=None, scale_tril=None)
+.. py:class:: paddle.distribution.MultivariateNormal(loc, covariance_matrix=None, precision_matrix=None, scale_tril=None, validate_args=None)
 
 
 MultivariateNormal 是一种定义在实数域上的多元连续型概率分布，参数 :attr:`loc` 表示均值，以及需要传入以下任意一种矩阵描述其方差：
@@ -33,6 +33,8 @@ MultivariateNormal 是一种定义在实数域上的多元连续型概率分布
 
     - **scale_tril** (Tensor，可选) - 是 MultivariateNormal 协方差矩阵的柯列斯基分解的下三角矩阵。:attr:`scale_tril` 的数据类型会被转换为与 :attr:`loc` 相同的类型。默认值为 None。
 
+    - **validate_args** (bool|None，可选) - 是否对输入参数进行校验。默认值为 None。
+
 
 代码示例
 :::::::::
@@ -60,6 +62,15 @@ MultivariateNormal 分布的方差
 
 Tensor，方差
 
+mode
+'''''''''
+
+MultivariateNormal 分布的众数
+
+**返回**
+
+Tensor，众数
+
 方法
 :::::::::
 
diff --git a/docs/api/paddle/distribution/Normal_cn.rst b/docs/api/paddle/distribution/Normal_cn.rst
index b3667a648b6..f2140e127a8 100644
--- a/docs/api/paddle/distribution/Normal_cn.rst
+++ b/docs/api/paddle/distribution/Normal_cn.rst
@@ -3,7 +3,7 @@
 Normal
 -------------------------------
 
-.. py:class:: paddle.distribution.Normal(loc, scale, name=None)
+.. py:class:: paddle.distribution.Normal(loc, scale, validate_args=None, name=None)
 
 
 正态分布
@@ -35,6 +35,7 @@ Normal
 
     - **loc** (int|float|complex|list|tuple|numpy.ndarray|Tensor) - 正态分布平均值。数据类型为 float32、float64、complex64 或 complex128。
     - **scale** (int|float|list|tuple|numpy.ndarray|Tensor) - 正态分布标准差。数据类型为 float32 或 float64。
+    - **validate_args** (bool|None，可选) - 是否对输入参数进行校验。默认值为 None。
     - **name** (str，可选) - 具体用法请参见 :ref:`api_guide_Name`，一般无需设置，默认值为 None。
 
 代码示例
diff --git a/docs/api/paddle/iinfo_cn.rst b/docs/api/paddle/iinfo_cn.rst
index e3a76d10337..7682b08e864 100644
--- a/docs/api/paddle/iinfo_cn.rst
+++ b/docs/api/paddle/iinfo_cn.rst
@@ -14,7 +14,7 @@ iinfo
 
 参数
 :::::::::
-    - **dtype** (paddle.dtype|str) - 输入的数据类型，可以是：paddle.uint8、 paddle.int8、 paddle.int16、 paddle.int32、 paddle.int64 或这些类型的字符串形式。别名 ``type``。
+    - **dtype** (paddle.dtype|str) - 输入的数据类型，可以是：paddle.uint8、 paddle.uint16、 paddle.uint32、 paddle.uint64、 paddle.int8、 paddle.int16、 paddle.int32、 paddle.int64 或这些类型的字符串形式。别名 ``type``。
 
 返回
 :::::::::
diff --git a/docs/api/paddle/inference_mode_cn.rst b/docs/api/paddle/inference_mode_cn.rst
new file mode 100644
index 00000000000..6c6ea50f15b
--- /dev/null
+++ b/docs/api/paddle/inference_mode_cn.rst
@@ -0,0 +1,24 @@
+.. _cn_api_paddle_inference_mode:
+
+inference_mode
+-------------------------------
+
+.. py:class:: paddle.inference_mode(mode=True)
+
+
+
+创建一个上下文管理器或装饰器，用于启用或禁用推理模式。
+
+在该模式下，每次计算的结果都将具有 ``stop_gradient=True``。当 ``mode=False`` 时，将启用梯度计算。
+
+也可以用作一个装饰器。
+
+参数
+::::::::::::
+
+    - **mode** (bool，可选) - 是否启用推理模式。默认值为 True。
+
+代码示例
+::::::::::::
+
+COPY-FROM: paddle.inference_mode
diff --git a/docs/api/paddle/kaiser_window_cn.rst b/docs/api/paddle/kaiser_window_cn.rst
new file mode 100644
index 00000000000..777af1062c2
--- /dev/null
+++ b/docs/api/paddle/kaiser_window_cn.rst
@@ -0,0 +1,35 @@
+.. _cn_api_paddle_kaiser_window:
+
+kaiser_window
+-------------------------------
+
+.. py:function:: paddle.kaiser_window(window_length, periodic=True, beta=12.0, *, dtype='float32', layout=None, device=None, pin_memory=False, requires_grad=False, out=None)
+
+计算 Kaiser 窗。
+
+参数
+::::::::::::
+
+    - **window_length** (int) - 返回窗的长度，必须为正数。
+    - **periodic** (bool，可选) - 若为 True，则返回适用于周期函数的窗；若为 False，则返回对称窗。默认值为 True。
+    - **beta** (float，可选) - 窗函数的形状参数。默认值为 12.0。
+
+关键字参数
+::::::::::::
+
+    - **dtype** (str，可选) - 返回 Tensor 的数据类型。默认值为 ``'float32'``。
+    - **layout** (str，可选) - 仅为与 PyTorch API 保持一致而保留，在 Paddle 中会被忽略。默认值为 None。
+    - **device** (PlaceLike|None，可选) - 返回 Tensor 所在的设备。若为 None，则使用当前设备。默认值为 None。
+    - **pin_memory** (bool，可选) - 是否将返回 Tensor 分配在锁页内存中，仅对 CPU Tensor 生效。默认值为 False。
+    - **requires_grad** (bool，可选) - 是否为返回 Tensor 记录自动求导。默认值为 False。
+    - **out** (Tensor，可选) - 输出 Tensor，若不为 ``None``，计算结果将保存在该 Tensor 中，默认值为 ``None``。
+
+返回
+::::::::::::
+
+Tensor：形状为 ``(window_length,)`` 的一维 Tensor，包含 Kaiser 窗。
+
+代码示例
+::::::::::::
+
+COPY-FROM: paddle.kaiser_window
diff --git a/docs/api/paddle/nn/BatchNorm1D_cn.rst b/docs/api/paddle/nn/BatchNorm1D_cn.rst
index 7fd2aeecac6..5b11abcb3c7 100644
--- a/docs/api/paddle/nn/BatchNorm1D_cn.rst
+++ b/docs/api/paddle/nn/BatchNorm1D_cn.rst
@@ -3,7 +3,7 @@
 BatchNorm1D
 -------------------------------
 
-.. py:class:: paddle.nn.BatchNorm1D(num_features, momentum=0.9, epsilon=1e-05, weight_attr=None, bias_attr=None, data_format='NCL', use_global_stats=None, name=None)
+.. py:class:: paddle.nn.BatchNorm1D(num_features, momentum=0.9, epsilon=1e-05, weight_attr=None, bias_attr=None, data_format='NCL', use_global_stats=None, name=None, *, affine=True, device=None, dtype=None)
 
 
 构建 ``BatchNorm1D`` 类的一个可调用对象，具体用法参照 ``代码示例``。可以处理 2D 或者 3D 的 Tensor，实现了批归一化层（Batch Normalization Layer）的功能，可用作卷积和全连接操作的批归一化函数，根据当前批次数据按通道计算的均值和方差进行归一化。更多详情请参考：`Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift <https://arxiv.org/pdf/1502.03167.pdf>`_
@@ -40,6 +40,7 @@ BatchNorm1D
 
     - **num_features** (int) - 指明输入 ``Tensor`` 的通道数量。
     - **epsilon** (float，可选) - 为了数值稳定加在分母上的值。默认值：1e-05。
+      ``别名: eps``
     - **momentum** (float，可选) - 此值用于计算 ``moving_mean`` 和 ``moving_var``。默认值：0.9。更新公式如上所示。
     - **weight_attr** (ParamAttr|bool，可选) - 指定权重参数属性的对象。如果为 False，则表示每个通道的伸缩固定为 1，不可改变。默认值为 None，表示使用默认的权重参数属性。具体用法请参见 :ref:`cn_api_paddle_ParamAttr` 。
     - **bias_attr** (ParamAttr|bool，可选) - 指定偏置参数属性的对象。如果为 False，则表示每一个通道的偏移固定为 0，不可改变。默认值为 None，表示使用默认的偏置参数属性。具体用法请参见 :ref:`cn_api_paddle_ParamAttr` 。
@@ -47,6 +48,13 @@ BatchNorm1D
     - **use_global_stats** (bool|None，可选) – 指示是否使用全局均值和方差。若设置为 False，则使用一个 mini-batch 的统计数据。若设置为 True 时，将使用全局统计数据。若设置为 None，则会在测试阶段使用全局统计数据，在训练阶段使用一个 mini-batch 的统计数据。默认值为 None。
     - **name** (str，可选) - 具体用法请参见 :ref:`api_guide_Name`，一般无需设置，默认值为 None。
 
+关键字参数
+::::::::::::
+
+    - **affine** (bool，可选) - 该模块是否具有可学习的仿射参数（weight 和 bias）。如果设置为 False，将不会创建可学习的参数，无论 ``weight_attr`` 和 ``bias_attr`` 如何设置。默认值：True。
+    - **device** (PlaceLike，可选) - 参数所在的设备。默认值为 None。
+    - **dtype** (DTypeLike，可选) - 参数的数据类型。默认值为 None。
+
 
 返回
 ::::::::::::
diff --git a/docs/api/paddle/nn/BatchNorm2D_cn.rst b/docs/api/paddle/nn/BatchNorm2D_cn.rst
index 7eaf7d414e7..26f21209869 100644
--- a/docs/api/paddle/nn/BatchNorm2D_cn.rst
+++ b/docs/api/paddle/nn/BatchNorm2D_cn.rst
@@ -3,7 +3,7 @@
 BatchNorm2D
 -------------------------------
 
-.. py:class:: paddle.nn.BatchNorm2D(num_features, momentum=0.9, epsilon=1e-05, weight_attr=None, bias_attr=None, data_format='NCHW', use_global_stats=None, name=None)
+.. py:class:: paddle.nn.BatchNorm2D(num_features, momentum=0.9, epsilon=1e-05, weight_attr=None, bias_attr=None, data_format='NCHW', use_global_stats=None, name=None, *, affine=True, device=None, dtype=None)
 
 
 构建 ``BatchNorm2D`` 类的一个可调用对象，具体用法参照 ``代码示例``。可以处理 4D 的 Tensor，实现了批归一化层（Batch Normalization Layer）的功能，可用作卷积和全连接操作的批归一化函数，根据当前批次数据按通道计算的均值和方差进行归一化。更多详情请参考：`Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift <https://arxiv.org/pdf/1502.03167.pdf>`_
@@ -40,6 +40,7 @@ BatchNorm2D
 
     - **num_features** (int) - 指明输入 ``Tensor`` 的通道数量。
     - **epsilon** (float，可选) - 为了数值稳定加在分母上的值。默认值：1e-05。
+      ``别名: eps``
     - **momentum** (float，可选) - 此值用于计算 ``moving_mean`` 和 ``moving_var``。默认值：0.9。更新公式如上所示。
     - **weight_attr** (ParamAttr|bool，可选) - 指定权重参数属性的对象。如果为 False，则表示每个通道的伸缩固定为 1，不可改变。默认值为 None，表示使用默认的权重参数属性。具体用法请参见 :ref:`cn_api_paddle_ParamAttr` 。
     - **bias_attr** (ParamAttr|bool，可选) - 指定偏置参数属性的对象。如果为 False，则表示每一个通道的偏移固定为 0，不可改变。默认值为 None，表示使用默认的偏置参数属性。具体用法请参见 :ref:`cn_api_paddle_ParamAttr` 。
@@ -47,6 +48,13 @@ BatchNorm2D
     - **use_global_stats** (bool|None，可选) – 指示是否使用全局均值和方差。若设置为 False，则使用一个 mini-batch 的统计数据。若设置为 True 时，将使用全局统计数据。若设置为 None，则会在测试阶段使用全局统计数据，在训练阶段使用一个 mini-batch 的统计数据。默认值为 None。
     - **name** (str，可选) - 具体用法请参见 :ref:`api_guide_Name`，一般无需设置，默认值为 None。
 
+关键字参数
+::::::::::::
+
+    - **affine** (bool，可选) - 该模块是否具有可学习的仿射参数（weight 和 bias）。如果设置为 False，将不会创建可学习的参数，无论 ``weight_attr`` 和 ``bias_attr`` 如何设置。默认值：True。
+    - **device** (PlaceLike，可选) - 参数所在的设备。默认值为 None。
+    - **dtype** (DTypeLike，可选) - 参数的数据类型。默认值为 None。
+
 
 返回
 ::::::::::::
diff --git a/docs/api/paddle/nn/BatchNorm3D_cn.rst b/docs/api/paddle/nn/BatchNorm3D_cn.rst
index 44b1bbcdeea..f9572fc9459 100644
--- a/docs/api/paddle/nn/BatchNorm3D_cn.rst
+++ b/docs/api/paddle/nn/BatchNorm3D_cn.rst
@@ -3,7 +3,7 @@
 BatchNorm3D
 -------------------------------
 
-.. py:class:: paddle.nn.BatchNorm3D(num_features, momentum=0.9, epsilon=1e-05, weight_attr=None, bias_attr=None, data_format='NCDHW', use_global_stats=None, name=None)
+.. py:class:: paddle.nn.BatchNorm3D(num_features, momentum=0.9, epsilon=1e-05, weight_attr=None, bias_attr=None, data_format='NCDHW', use_global_stats=None, name=None, *, affine=True, device=None, dtype=None)
 
 
 构建 ``BatchNorm3D`` 类的一个可调用对象，具体用法参照 ``代码示例``。可以处理 4D 的 Tensor，实现了批归一化层（Batch Normalization Layer）的功能，可用作卷积和全连接操作的批归一化函数，根据当前批次数据按通道计算的均值和方差进行归一化。更多详情请参考：`Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift <https://arxiv.org/pdf/1502.03167.pdf>`_
@@ -40,6 +40,7 @@ BatchNorm3D
 
     - **num_features** (int) - 指明输入 ``Tensor`` 的通道数量。
     - **epsilon** (float，可选) - 为了数值稳定加在分母上的值。默认值：1e-05。
+      ``别名: eps``
     - **momentum** (float，可选) - 此值用于计算 ``moving_mean`` 和 ``moving_var``。默认值：0.9。更新公式如上所示。
     - **weight_attr** (ParamAttr|bool，可选) - 指定权重参数属性的对象。如果为 False，则表示每个通道的伸缩固定为 1，不可改变。默认值为 None，表示使用默认的权重参数属性。具体用法请参见 :ref:`cn_api_paddle_ParamAttr` 。
     - **bias_attr** (ParamAttr|bool，可选) - 指定偏置参数属性的对象。如果为 False，则表示每一个通道的偏移固定为 0，不可改变。默认值为 None，表示使用默认的偏置参数属性。具体用法请参见 :ref:`cn_api_paddle_ParamAttr` 。
@@ -47,6 +48,13 @@ BatchNorm3D
     - **use_global_stats** (bool|None，可选) – 指示是否使用全局均值和方差。若设置为 False，则使用一个 mini-batch 的统计数据。若设置为 True 时，将使用全局统计数据。若设置为 None，则会在测试阶段使用全局统计数据，在训练阶段使用一个 mini-batch 的统计数据。默认值为 None。
     - **name** (str，可选) - 具体用法请参见 :ref:`api_guide_Name`，一般无需设置，默认值为 None。
 
+关键字参数
+::::::::::::
+
+    - **affine** (bool，可选) - 该模块是否具有可学习的仿射参数（weight 和 bias）。如果设置为 False，将不会创建可学习的参数，无论 ``weight_attr`` 和 ``bias_attr`` 如何设置。默认值：True。
+    - **device** (PlaceLike，可选) - 参数所在的设备。默认值为 None。
+    - **dtype** (DTypeLike，可选) - 参数的数据类型。默认值为 None。
+
 
 返回
 ::::::::::::
diff --git a/docs/api/paddle/nn/Hardswish_cn.rst b/docs/api/paddle/nn/Hardswish_cn.rst
index ecd7f5f4ceb..6e66f3657bb 100644
--- a/docs/api/paddle/nn/Hardswish_cn.rst
+++ b/docs/api/paddle/nn/Hardswish_cn.rst
@@ -3,7 +3,7 @@
 Hardswish
 -------------------------------
 
-.. py:class:: paddle.nn.Hardswish(name=None)
+.. py:class:: paddle.nn.Hardswish(inplace=False, name=None)
 
 Hardswish 激活函数。创建一个 ``Hardswish`` 类的可调用对象。在 MobileNetV3 架构中被提出，相较于 :ref:`cn_api_paddle_nn_Swish` 函数，具有数值稳定性好，计算速度快等优点，具体原理请参考：`Searching for MobileNetV3 <https://arxiv.org/pdf/1905.02244.pdf>`_ 。
 
@@ -22,6 +22,7 @@ Hardswish 激活函数。创建一个 ``Hardswish`` 类的可调用对象。在
 
 参数
 ::::::::::
+    - **inplace** (bool，可选) - 是否使用 inplace 操作。默认值为 False。
     - **name** (str，可选) - 具体用法请参见 :ref:`api_guide_Name`，一般无需设置，默认值为 None。
 
 形状
diff --git a/docs/api/paddle/nn/LayerNorm_cn.rst b/docs/api/paddle/nn/LayerNorm_cn.rst
index 3214e669ae2..8ea8c1794fb 100644
--- a/docs/api/paddle/nn/LayerNorm_cn.rst
+++ b/docs/api/paddle/nn/LayerNorm_cn.rst
@@ -3,7 +3,7 @@
 LayerNorm
 -------------------------------
 
-.. py:class:: paddle.nn.LayerNorm(normalized_shape, epsilon=1e-05, *, elementwise_affine=True, bias=True, device=None, dtype=None, weight_attr=None, bias_attr=None, name=None)
+.. py:class:: paddle.nn.LayerNorm(normalized_shape, epsilon=1e-05, elementwise_affine=True, bias=True, device=None, dtype=None, *, weight_attr=None, bias_attr=None, name=None)
 
 构建 ``LayerNorm`` 类的一个可调用对象，具体用法参照 ``代码示例``。其中实现了层归一化层（Layer Normalization Layer）的功能，其可以应用于小批量输入数据。更多详情请参考：`Layer Normalization <https://arxiv.org/pdf/1607.06450v1.pdf>`_ 。
 
@@ -30,13 +30,9 @@ LayerNorm
     - **epsilon** (float，可选) - 指明在计算过程中是否添加较小的值到方差中以防止除零。默认值：1e-05。
       ``别名: eps``
     - **elementwise_affine** (bool，可选) - 该模块是否具有可学习的仿射参数（weight 和 bias）。如果设置为 False，将不会创建可学习的参数，无论 bias、weight_attr 和 bias_attr 如何设置。默认值：True。
-      ``注意： 此参数必须以关键字参数的形式传入``
     - **bias** (bool，可选) - 该模块是否具有可学习的偏置（bias）。如果设置为 False，将不会创建可学习的偏置，无论 bias_attr 如何设置。默认值：True。
-      ``注意： 此参数必须以关键字参数的形式传入``
     - **device** (PlaceLike，可选) - 计算发生的设备。默认值：None。
-      ``注意： 此参数必须以关键字参数的形式传入``
     - **dtype** (DTypeLike，可选) - 权重和偏置的数据类型。默认值：None。
-      ``注意： 此参数必须以关键字参数的形式传入``
     - **weight_attr** (ParamAttr|bool|None, 可选) - 用于指定可训练的增益参数 :math:`g` 的属性。如果为 False，则不使用权重（即权重参数为 None）；如果为 None，则会使用一个默认的 ParamAttr 作为权重的属性设置，该属性将权重初始化为 1。默认值为 None，表示使用默认的权重属性。具体用法请参见 :ref:`cn_api_paddle_ParamAttr`。
       ``注意： 此参数必须以关键字参数的形式传入``
     - **bias_attr** (ParamAttr|bool|None, 可选) - 用于指定可训练的偏置参数 :math:`b` 的属性。如果为 False，则不使用偏置（即偏置参数为 None）；如果为 None，则会使用一个默认的 ParamAttr 作为偏置的属性设置，该属性将偏置初始化为 0。默认值为 None，表示使用默认的偏置属性。具体用法请参见 :ref:`cn_api_paddle_ParamAttr`。
diff --git a/docs/api/paddle/nn/Layer_cn.rst b/docs/api/paddle/nn/Layer_cn.rst
index 155ad744084..af7b5537908 100644
--- a/docs/api/paddle/nn/Layer_cn.rst
+++ b/docs/api/paddle/nn/Layer_cn.rst
@@ -83,7 +83,7 @@ str， Layer 的全名
 
 COPY-FROM: paddle.nn.Layer.full_name
 
-register_forward_pre_hook(hook)
+register_forward_pre_hook(hook, *, prepend=False, with_kwargs=False)
 '''''''''
 
 为 Layer 注册一个 ``forward pre-hook`` 函数，该 ``hook`` 函数将会在 ``forward`` 函数调用之前被调用。
@@ -95,6 +95,8 @@ hook(Layer, input) -> None or modified input
 **参数**
 
     - **hook** (function) - 被注册为 ``forward pre-hook`` 的函数
+    - **prepend** (bool，可选) - 若为 True，则该 hook 会在已有的 ``forward pre-hook`` 之前执行。默认值：False。
+    - **with_kwargs** (bool，可选) - 若为 True，则调用 ``forward`` 时传入的关键字参数也会传递给该 hook。默认值：False。
 
 **返回**
 HookRemoveHelper，可通过调用 ``hook_remove_helper.remove()`` 来删除注册的 hook 函数。
@@ -103,7 +105,7 @@ HookRemoveHelper，可通过调用 ``hook_remove_helper.remove()`` 来删除注
 
 COPY-FROM: paddle.nn.Layer.register_forward_pre_hook
 
-register_forward_post_hook(hook)
+register_forward_post_hook(hook, *, prepend=False, with_kwargs=False, always_call=False)
 '''''''''
 
 为 Layer 注册一个 ``forward post-hook`` 函数，该 ``hook`` 函数将会在 ``forward`` 函数调用之后被调用。
@@ -115,10 +117,16 @@ hook(Layer, input, output) -> None or modified output
 **参数**
 
     - **hook** (function) - 被注册为 ``forward post-hook`` 的函数
+    - **prepend** (bool，可选) - 若为 True，则该 hook 会在已有的 ``forward post-hook`` 之前执行。默认值：False。
+    - **with_kwargs** (bool，可选) - 若为 True，则调用 ``forward`` 时传入的关键字参数也会传递给该 hook。默认值：False。
+    - **always_call** (bool，可选) - 若为 True，则无论 ``forward`` 是否抛出异常，都会尝试调用该 hook。默认值：False。
 
 **返回**
 HookRemoveHelper，可通过调用 ``hook_remove_helper.remove()`` 来删除注册的 hook 函数。
 
+.. note::
+   ``register_forward_hook`` 是 ``register_forward_post_hook`` 的别名，两者在使用和功能上完全等价。
+
 **代码示例**
 
 COPY-FROM: paddle.nn.Layer.register_forward_post_hook
@@ -411,7 +419,7 @@ dict，包含所有参数和可持久行 buffers 的 dict
 
 COPY-FROM: paddle.nn.Layer.state_dict
 
-set_state_dict(state_dict, use_structured_name=True)
+set_state_dict(state_dict, use_structured_name=True, assign=False)
 '''''''''
 
 根据传入的 ``state_dict`` 设置参数和可持久性 buffers。所有参数和 buffers 将由 ``state_dict`` 中的 ``Tensor`` 设置。
@@ -420,6 +428,7 @@ set_state_dict(state_dict, use_structured_name=True)
 
     - **state_dict** (dict) - 包含所有参数和可持久性 buffers 的 dict。
     - **use_structured_name** (bool，可选) - 如果设置为 True，将使用 Layer 的结构性变量名作为 dict 的 key，否则将使用 Parameter 或者 Buffer 的变量名作为 key。默认值：True。
+    - **assign** (bool，可选) - 若为 False，则保留当前 Layer 中 Tensor 的属性；若为 True，则保留 ``state_dict`` 中 Tensor 的属性。默认值：False。
 
 **返回**
     - **missing_keys** (list) - 没有匹配到的参数名列表
@@ -430,6 +439,23 @@ set_state_dict(state_dict, use_structured_name=True)
 
 COPY-FROM: paddle.nn.Layer.set_state_dict
 
+load_state_dict(state_dict, strict=True, assign=False)
+''''''''''
+
+将 ``state_dict`` 中的参数和 buffers 复制到当前 Layer 及其子层中。
+
+若 ``strict`` 为 True，则 ``state_dict`` 中的 key 必须与当前 Layer 的 ``state_dict()`` 返回结果完全一致。
+
+**参数**
+
+    - **state_dict** (dict) - 包含参数和持久化 buffers 的 dict。
+    - **strict** (bool，可选) - 是否严格要求 ``state_dict`` 中的 key 与当前 Layer 的 ``state_dict()`` 返回结果完全一致。默认值：True。
+    - **assign** (bool，可选) - 若为 False，则保留当前 Layer 中 Tensor 的属性；若为 True，则保留 ``state_dict`` 中 Tensor 的属性。对于 ``Parameter`` 的梯度相关属性，以当前 Layer 中的值为准。默认值：False。
+
+**返回**
+    - **missing_keys** (list) - 缺失的参数名列表。
+    - **unexpected_keys** (list) - 传入 ``state_dict`` 中未被当前 Layer 使用的参数名列表。
+
 to(device=None, dtype=None, blocking=True, \*, non_blocking=False)
 '''''''''
 
diff --git a/docs/api/paddle/nn/Module_cn.rst b/docs/api/paddle/nn/Module_cn.rst
index bdfe9082632..e987c74a65e 100644
--- a/docs/api/paddle/nn/Module_cn.rst
+++ b/docs/api/paddle/nn/Module_cn.rst
@@ -83,7 +83,7 @@ str， Module 的全名
 COPY-FROM: paddle.nn.Module.full_name
 
 
-register_forward_pre_hook(hook)
+register_forward_pre_hook(hook, *, prepend=False, with_kwargs=False)
 '''''''''
 
 为 Module 注册一个 ``forward pre-hook`` 函数，该 ``hook`` 函数将会在 ``forward`` 函数调用之前被调用。
@@ -95,6 +95,8 @@ hook(Module, input) -> None or modified input
 **参数**
 
     - **hook** (function) - 被注册为 ``forward pre-hook`` 的函数
+    - **prepend** (bool，可选) - 若为 True，则该 hook 会在已有的 ``forward pre-hook`` 之前执行。默认值：False。
+    - **with_kwargs** (bool，可选) - 若为 True，则调用 ``forward`` 时传入的关键字参数也会传递给该 hook。默认值：False。
 
 **返回**
 HookRemoveHelper，可通过调用 ``hook_remove_helper.remove()`` 来删除注册的 hook 函数。
@@ -103,7 +105,7 @@ HookRemoveHelper，可通过调用 ``hook_remove_helper.remove()`` 来删除注
 
 COPY-FROM: paddle.nn.Module.register_forward_pre_hook
 
-register_forward_post_hook(hook)
+register_forward_post_hook(hook, *, prepend=False, with_kwargs=False, always_call=False)
 '''''''''
 
 为 Module 注册一个 ``forward post-hook`` 函数，该 ``hook`` 函数将会在 ``forward`` 函数调用之后被调用。
@@ -115,10 +117,16 @@ hook(Module, input, output) -> None or modified output
 **参数**
 
     - **hook** (function) - 被注册为 ``forward post-hook`` 的函数
+    - **prepend** (bool，可选) - 若为 True，则该 hook 会在已有的 ``forward post-hook`` 之前执行。默认值：False。
+    - **with_kwargs** (bool，可选) - 若为 True，则调用 ``forward`` 时传入的关键字参数也会传递给该 hook。默认值：False。
+    - **always_call** (bool，可选) - 若为 True，则无论 ``forward`` 是否抛出异常，都会尝试调用该 hook。默认值：False。
 
 **返回**
 HookRemoveHelper，可通过调用 ``hook_remove_helper.remove()`` 来删除注册的 hook 函数。
 
+.. note::
+   ``register_forward_hook`` 是 ``register_forward_post_hook`` 的别名，两者在使用和功能上完全等价。
+
 **代码示例**
 
 COPY-FROM: paddle.nn.Module.register_forward_post_hook
@@ -469,7 +477,7 @@ dict，包含所有参数和可持久行 buffers 的 dict
 
 COPY-FROM: paddle.nn.Module.state_dict
 
-set_state_dict(state_dict, use_structured_name=True)
+set_state_dict(state_dict, use_structured_name=True, assign=False)
 '''''''''
 
 根据传入的 ``state_dict`` 设置参数和可持久性 buffers。所有参数和 buffers 将由 ``state_dict`` 中的 ``Tensor`` 设置。
@@ -478,6 +486,7 @@ set_state_dict(state_dict, use_structured_name=True)
 
     - **state_dict** (dict) - 包含所有参数和可持久性 buffers 的 dict。
     - **use_structured_name** (bool，可选) - 如果设置为 True，将使用 Module 的结构性变量名作为 dict 的 key，否则将使用 Parameter 或者 Buffer 的变量名作为 key。默认值：True。
+    - **assign** (bool，可选) - 若为 False，则保留当前 Module 中 Tensor 的属性；若为 True，则保留 ``state_dict`` 中 Tensor 的属性。默认值：False。
 
 **返回**
     - **missing_keys** (list) - 没有匹配到的参数名列表
@@ -488,6 +497,23 @@ set_state_dict(state_dict, use_structured_name=True)
 
 COPY-FROM: paddle.nn.Module.set_state_dict
 
+load_state_dict(state_dict, strict=True, assign=False)
+''''''''''
+
+将 ``state_dict`` 中的参数和 buffers 复制到当前 Module 及其子模块中。
+
+若 ``strict`` 为 True，则 ``state_dict`` 中的 key 必须与当前 Module 的 ``state_dict()`` 返回结果完全一致。
+
+**参数**
+
+    - **state_dict** (dict) - 包含参数和持久化 buffers 的 dict。
+    - **strict** (bool，可选) - 是否严格要求 ``state_dict`` 中的 key 与当前 Module 的 ``state_dict()`` 返回结果完全一致。默认值：True。
+    - **assign** (bool，可选) - 若为 False，则保留当前 Module 中 Tensor 的属性；若为 True，则保留 ``state_dict`` 中 Tensor 的属性。对于 ``Parameter`` 的梯度相关属性，以当前 Module 中的值为准。默认值：False。
+
+**返回**
+    - **missing_keys** (list) - 缺失的参数名列表。
+    - **unexpected_keys** (list) - 传入 ``state_dict`` 中未被当前 Module 使用的参数名列表。
+
 to(device=None, dtype=None, blocking=None)
 '''''''''
 
diff --git a/docs/api/paddle/nn/Overview_cn.rst b/docs/api/paddle/nn/Overview_cn.rst
index 0a8b3ece03a..1cff7ecca24 100644
--- a/docs/api/paddle/nn/Overview_cn.rst
+++ b/docs/api/paddle/nn/Overview_cn.rst
@@ -204,6 +204,8 @@ Transformer 相关
 
 
     " :ref:`paddle.nn.MultiHeadAttention <cn_api_paddle_nn_MultiHeadAttention>` ", "多头注意力机制"
+    " :ref:`paddle.nn.attention.flex_attention.or_masks <cn_api_paddle_nn_attention_flex_attention_or_masks>` ", "组合多个 mask 函数并返回逻辑或结果"
+    " :ref:`paddle.nn.attention.flex_attention.and_masks <cn_api_paddle_nn_attention_flex_attention_and_masks>` ", "组合多个 mask 函数并返回逻辑与结果"
     " :ref:`paddle.nn.functional.scaled_dot_product_attention <cn_api_paddle_nn_functional_scaled_dot_product_attention>` ", "点乘注意力机制，并在此基础上加入了对注意力权重的缩放"
     " :ref:`paddle.nn.functional.sparse_attention <cn_api_paddle_nn_functional_sparse_attention>` ", "稀疏版本的 Attention API，对 Transformer 模块中的 Attention 矩阵进行了稀疏化，从而减少内存消耗和计算量"
     " :ref:`paddle.nn.Transformer <cn_api_paddle_nn_Transformer>` ", "Transformer 模型"
diff --git a/docs/api/paddle/nn/PReLU_cn.rst b/docs/api/paddle/nn/PReLU_cn.rst
index f19545d1c51..c3bc3324251 100644
--- a/docs/api/paddle/nn/PReLU_cn.rst
+++ b/docs/api/paddle/nn/PReLU_cn.rst
@@ -2,7 +2,7 @@
 
 PReLU
 -------------------------------
-.. py:class:: paddle.nn.PReLU(num_parameters=1, init=0.25, weight_attr=None, data_format="NCHW", name=None)
+.. py:class:: paddle.nn.PReLU(num_parameters=1, init=0.25, weight_attr=None, data_format="NCHW", name=None, device=None, dtype=None)
 
 PReLU 激活层（PReLU Activation Operator）。计算公式如下：
 
@@ -21,6 +21,8 @@ PReLU 激活层（PReLU Activation Operator）。计算公式如下：
     - **weight_attr** (ParamAttr，可选) - 指定权重参数属性的对象。默认值为 None，表示使用默认的权重参数属性。具体用法请参见 :ref:`cn_api_paddle_ParamAttr`。
     - **data_format** (str，可选) – 指定输入的数据格式，输出的数据格式将与输入保持一致，可以是 "NC", "NCL", "NCHW", "NCDHW", "NLC", "NHWC" 或者 "NDHWC"。默认值："NCHW"。
     - **name** (str，可选) - 具体用法请参见 :ref:`api_guide_Name`，一般无需设置，默认值为 None。
+    - **device** (PlaceLike，可选) - 参数的设备位置。默认值为 None。
+    - **dtype** (str|paddle.dtype|np.dtype，可选) - 参数的数据类型。默认值为 None。
 
 形状
 ::::::::::
diff --git a/docs/api/paddle/nn/ReLU6_cn.rst b/docs/api/paddle/nn/ReLU6_cn.rst
index f20a7774aaf..333b3a4c61e 100644
--- a/docs/api/paddle/nn/ReLU6_cn.rst
+++ b/docs/api/paddle/nn/ReLU6_cn.rst
@@ -2,7 +2,7 @@
 
 ReLU6
 -------------------------------
-.. py:class:: paddle.nn.ReLU6(name=None)
+.. py:class:: paddle.nn.ReLU6(inplace=False, name=None)
 
 ReLU6 激活层
 
@@ -14,6 +14,7 @@ ReLU6 激活层
 
 参数
 ::::::::::
+    - **inplace** (bool，可选) - 是否使用 inplace 操作。默认值为 False。
     - **name** (str，可选) - 具体用法请参见 :ref:`api_guide_Name`，一般无需设置，默认值为 None。
 
 形状
diff --git a/docs/api/paddle/nn/attention/and_masks_cn.rst b/docs/api/paddle/nn/attention/and_masks_cn.rst
new file mode 100644
index 00000000000..7ad7753605a
--- /dev/null
+++ b/docs/api/paddle/nn/attention/and_masks_cn.rst
@@ -0,0 +1,23 @@
+.. _cn_api_paddle_nn_attention_flex_attention_and_masks:
+
+and_masks
+-------------------------------
+
+.. py:function:: paddle.nn.attention.flex_attention.and_masks(*mask_mods)
+
+返回一个 mask 函数，对输入的多个 mask 函数结果进行逻辑与运算。
+
+参数
+::::::::::::
+
+    - **mask_mods** (Callable) - mask 函数，签名为 ``mask_mod(b, h, q_idx, kv_idx)``。
+
+返回
+::::::::::::
+
+Callable：对所有 mask 结果执行逻辑与运算后的 mask 函数。
+
+代码示例
+::::::::::::
+
+COPY-FROM: paddle.nn.attention.flex_attention.and_masks
diff --git a/docs/api/paddle/nn/attention/or_masks_cn.rst b/docs/api/paddle/nn/attention/or_masks_cn.rst
new file mode 100644
index 00000000000..1ef1689d1fd
--- /dev/null
+++ b/docs/api/paddle/nn/attention/or_masks_cn.rst
@@ -0,0 +1,23 @@
+.. _cn_api_paddle_nn_attention_flex_attention_or_masks:
+
+or_masks
+-------------------------------
+
+.. py:function:: paddle.nn.attention.flex_attention.or_masks(*mask_mods)
+
+返回一个 mask 函数，对输入的多个 mask 函数结果进行逻辑或运算。
+
+参数
+::::::::::::
+
+    - **mask_mods** (Callable) - mask 函数，签名为 ``mask_mod(b, h, q_idx, kv_idx)``。
+
+返回
+::::::::::::
+
+Callable：对所有 mask 结果执行逻辑或运算后的 mask 函数。
+
+代码示例
+::::::::::::
+
+COPY-FROM: paddle.nn.attention.flex_attention.or_masks
diff --git a/docs/api/paddle/nn/functional/hardswish_cn.rst b/docs/api/paddle/nn/functional/hardswish_cn.rst
index e20a201228b..478da5c338a 100644
--- a/docs/api/paddle/nn/functional/hardswish_cn.rst
+++ b/docs/api/paddle/nn/functional/hardswish_cn.rst
@@ -3,7 +3,7 @@
 hardswish
 -------------------------------
 
-.. py:function:: paddle.nn.functional.hardswish(x, name=None)
+.. py:function:: paddle.nn.functional.hardswish(x, inplace=False, name=None)
 
 hardswish 激活函数。在 MobileNetV3 架构中被提出，相较于 swish 函数，具有数值稳定性好，计算速度快等优点，具体原理请参考：`Searching for MobileNetV3 <https://arxiv.org/pdf/1905.02244.pdf>`_ 。
 
@@ -22,7 +22,8 @@ hardswish 激活函数。在 MobileNetV3 架构中被提出，相较于 swish 
 
 参数
 ::::::::::
-    - **x** (Tensor) - 输入的 ``Tensor``，数据类型为：float32、float64。
+    - **x** (Tensor) - 输入的 ``Tensor``，数据类型为：float32、float64。别名 ``input``。
+    - **inplace** (bool，可选) - 是否使用 inplace 操作。默认值为 False。
     - **name** (str，可选) - 具体用法请参见 :ref:`api_guide_Name`，一般无需设置，默认值为 None。
 
 返回
diff --git a/docs/api/paddle/nn/functional/relu6_cn.rst b/docs/api/paddle/nn/functional/relu6_cn.rst
index 95c702d6f07..0396dae0290 100644
--- a/docs/api/paddle/nn/functional/relu6_cn.rst
+++ b/docs/api/paddle/nn/functional/relu6_cn.rst
@@ -3,7 +3,7 @@
 relu6
 -------------------------------
 
-.. py:function:: paddle.nn.functional.relu6(x, name=None)
+.. py:function:: paddle.nn.functional.relu6(x, inplace=False, name=None)
 
 relu6 激活层
 
@@ -15,7 +15,8 @@ relu6 激活层
 
 参数
 ::::::::::
- - **x** (Tensor) - 输入的 ``Tensor``，数据类型为：float32、float64。
+ - **x** (Tensor) - 输入的 ``Tensor``，数据类型为：float32、float64。别名 ``input``。
+ - **inplace** (bool，可选) - 是否使用 inplace 操作。默认值为 False。
  - **name** (str，可选) - 具体用法请参见 :ref:`api_guide_Name`，一般无需设置，默认值为 None。
 
 返回
diff --git a/docs/api/paddle/sinc_cn.rst b/docs/api/paddle/sinc_cn.rst
index 0d87f5eed25..c1565c8684a 100644
--- a/docs/api/paddle/sinc_cn.rst
+++ b/docs/api/paddle/sinc_cn.rst
@@ -3,7 +3,7 @@
 sinc
 -------------------------------
 
-.. py:function:: paddle.sinc(x, name=None)
+.. py:function:: paddle.sinc(x, name=None, *, out=None)
 
 计算输入的归一化 sinc 值。
 
@@ -22,9 +22,14 @@ sinc
 参数
 ::::::::::::
 
-    - **x** (Tensor) - 输入 Tensor。数据类型为 bfloat16，float16，float32，float64。
+    - **x** (Tensor) - 输入 Tensor。数据类型为 bfloat16，float16，float32，float64。别名 ``input``。
     - **name** (str，可选) - 具体用法请参见 :ref:`api_guide_Name`，一般无需设置，默认值为 None。
 
+关键字参数
+::::::::::::
+
+    - **out** (Tensor，可选) - 输出 Tensor，若不为 ``None``，计算结果将保存在该 Tensor 中，默认值为 ``None``。
+
 返回
 ::::::::::::
 返回类型为 Tensor，数据类型同输入一致。
diff --git a/docs/api/paddle/special/Overview_cn.rst b/docs/api/paddle/special/Overview_cn.rst
index 02688a63ba9..453ca81cf9d 100644
--- a/docs/api/paddle/special/Overview_cn.rst
+++ b/docs/api/paddle/special/Overview_cn.rst
@@ -15,4 +15,6 @@ special 函数
     :widths: 10, 30
 
     " :ref:`softmax <cn_api_paddle_special_softmax>` ", "softmax 函数"
+    " :ref:`erf <cn_api_paddle_special_erf>` ", "erf 函数"
     " :ref:`logsumexp <cn_api_paddle_special_logsumexp>` ", "logsumexp 函数"
+    " :ref:`sinc <cn_api_paddle_special_sinc>` ", "sinc 函数"
diff --git a/docs/api/paddle/special/erf_cn.rst b/docs/api/paddle/special/erf_cn.rst
new file mode 100644
index 00000000000..99768727800
--- /dev/null
+++ b/docs/api/paddle/special/erf_cn.rst
@@ -0,0 +1,8 @@
+.. _cn_api_paddle_special_erf:
+
+erf
+-------------------------------
+
+.. py:function:: paddle.special.erf(x, name=None)
+
+``erf`` 的别名，请参考 :ref:`cn_api_paddle_erf`。
diff --git a/docs/api/paddle/special/sinc_cn.rst b/docs/api/paddle/special/sinc_cn.rst
new file mode 100644
index 00000000000..96bcd36bd79
--- /dev/null
+++ b/docs/api/paddle/special/sinc_cn.rst
@@ -0,0 +1,8 @@
+.. _cn_api_paddle_special_sinc:
+
+sinc
+-------------------------------
+
+.. py:function:: paddle.special.sinc(x, name=None, *, out=None)
+
+``sinc`` 的别名，请参考 :ref:`cn_api_paddle_sinc`。