DQN

本文目前是 DQN的读书笔记。

Richard Sutton 和他的老师 Andrew Barto 合著的 Reinforcement Learning: An Introduction1是强化学习领域的“圣经”

线性回归、逻辑斯谛回归、softmax 分类器属于简单的线性模型. 它们分别相当于线性函数不加激活函数、加 sigmoid 激活函数、加 softmax 激活函数. 这三种模型分别应用于回归问题、二分类问题、多分类问题.
全连接层的输入是向量，输出也是向量. 主要由全连接层组成的神经网络叫作全连接神经网络，也叫多层感知机（MLP）.
卷积层有很多种，本书中只用 2D 卷积层（Conv2D），它的输入是矩阵或三阶张量，输出是三阶张量. 主要由卷积层组成的神经网络叫作卷积神经网络（CNN）.
在搭建神经网络的时候，我们随机初始化神经网络参数，然后通过求解、优化问题来学习参数. 梯度下降及其变体（比如随机梯度下降、RMSProp、Adam）是最常用的优化算法，它们用目标函数的梯度来更新模型参数.
对于线性模型，我们可以轻易地求出梯度. 然而神经网络是很复杂的函数，无法直接求出梯度，需要做反向传播. 反向传播的本质是用链式法则求出目标函数关于每一层参数的梯度. 读者需要理解链式法则，但无须掌握技术细节，TensorFlow 和 PyTorch 等深度学习标准库都可以自动做反向传播，不需要读者手动计算梯度.

无偏估计

🔤无偏估计🔤

“无偏估计”

无偏估计是统计学中的一个重要概念，指的是对于待估参数的估计值，在多次重复的抽样过程中，估计值的期望值等于真实参数的值。换句话说，如果一个估计量在大量独立的重复试验中，其平均值等于被估计参数的真实值，则称该估计量是无偏的。

形式化地，设 $\hat{θ}$ 是参数 $θ$ 的一个估计量，如果对于所有可能的样本，有：

$E (\hat{θ}) = θ$

其中， $E (\cdot)$ 表示期望值，则称 $\hat{θ}$ 是 $θ$ 的无偏估计。

无偏估计的重要性在于它可以在统计推断中提供更准确的结果。如果估计量是有偏的，即其期望值与真实参数值不相等，那么在估计过程中可能会引入系统性的误差，导致对真实参数的估计产生偏差。因此，选择无偏估计通常被认为是更好的选择，尤其是在需要高精度的统计推断时。

在实际应用中，通常会比较不同估计量的无偏性质，以选择最适合特定问题的估计方法。

概率质量函数

概率质量函数（PMF）描述一个离散概率分布——即变量的取值范围 X 是个离散集合。

经验风险最小化（empirical risk minimization）问题

🔤经验风险最小化(empiricalriskminimization)问题🔤经验风险最小化（Empirical Risk Minimization，ERM）是一种常见的机器学习框架，用于解决监督学习问题。在这个框架下，我们试图通过最小化经验风险（empirical risk）来找到一个模型，这个模型能够在训练数据上取得较好的性能。
具体来说，ERM 涉及以下几个关键概念：
1. **经验风险（Empirical Risk）：** 经验风险是指模型在训练数据上的平均损失（或错误率）。对于分类问题，通常使用损失函数来度量模型的预测与真实标签之间的差异；对于回归问题，通常使用平方损失函数或绝对损失函数等。经验风险可以用以下公式表示：
$R_{emp} (h) = \frac{1}{n} \sum_{i = 1}^{n} L (h (x_{i}), y_{i})$
其中， $h$ 是模型， $L$ 是损失函数， $x_{i}$ 是第 $i$ 个样本的特征， $y_{i}$ 是第 $i$ 个样本的真实标签， $n$ 是训练样本的数量。
2. **最小化经验风险：** ERM 问题的目标是找到一个模型 $h^{\*}$ ，使得经验风险 $R_{emp} (h^{\*})$ 最小化。换句话说，我们试图找到一个模型，在训练数据上能够表现得足够好。
ERM 的一个主要挑战是过拟合（overfitting），即模型在训练数据上表现良好，但在未见过的测试数据上表现较差。为了应对过拟合，通常会在经验风险的基础上添加正则化项，得到正则化经验风险，以促使模型更加简单，从而提高其泛化能力。
总的来说，经验风险最小化问题是机器学习中的一个核心问题，其目标是通过最小化模型在训练数据上的平均损失来寻找一个在未知数据上具有良好泛化能力的模型。

DQN ​

无偏估计 ​

概率质量函数 ​

经验风险最小 化（empirical risk minimization）问题 ​

DQN

无偏估计

概率质量函数

经验风险最小化（empirical risk minimization）问题