数据预处理中的标准化

数据预处理的标准化是准备数据以供各个领域（包括机器学习、数据挖掘和统计分析）分析和建模的关键步骤。它涉及将数据转换为标准化格式，以消除不一致并确保不同的特征具有可比较的规模。通过这样做，归一化可以提高依赖于输入变量大小的算法的效率和准确性。

数据预处理中标准化的起源和首次提及的历史

数据预处理中标准化的概念可以追溯到早期的统计实践。然而，它作为一种基本数据预处理技术的形式化和认可可以追溯到 19 世纪末和 20 世纪初卡尔·皮尔逊 (Karl Pearson) 和罗纳德·费舍尔 (Ronald Fisher) 等统计学家的作品。皮尔逊在他的相关系数中引入了标准化的概念（归一化的一种形式），它允许对具有不同单位的变量进行比较。

在机器学习领域，规范化的概念随着 20 世纪 40 年代人工神经网络的兴起而流行。研究人员发现，标准化输入数据显着提高了这些模型的收敛性和性能。

有关数据预处理中标准化的详细信息

规范化旨在将数据集的所有特征归一化到一个共同的尺度上，通常在 0 到 1 之间，而不会扭曲数据的底层分布。在处理具有明显不同范围或单位的特征时，这一点至关重要，因为算法可能会过分重视具有较大值的特征。

规范化过程涉及以下步骤：

识别特征：根据特征的尺度和分布确定哪些特征需要标准化。
缩放：独立地将每个特征变换到特定范围内。常见的缩放技术包括最小-最大缩放和 Z 分数标准化。
归一化公式：最广泛使用的最小-最大缩放公式是：
```
CSS
x_normalized = (x - min(x)) / (max(x) - min(x))
```
在哪里 x 是原始值，并且 x_normalized 是标准化值。
Z 分数标准化公式：对于 Z 分数标准化，公式为：
```
生成文件
z = (x - mean) / standard_deviation
```
在哪里 mean 是特征值的平均值， standard_deviation 是标准差，并且 z 是标准化值。

数据预处理中归一化的内部结构。数据预处理中的标准化如何工作

标准化对数据集的各个特征进行操作，使其成为特征级转换。该过程涉及计算每个特征的统计属性，例如最小值、最大值、平均值和标准差，然后对该特征内的每个数据点应用适当的缩放公式。

标准化的主要目标是防止某些特征因其较大的量级而主导学习过程。通过将所有特征缩放到一个共同范围，标准化可确保每个特征对学习过程按比例做出贡献，并防止优化期间的数值不稳定。

数据预处理中规范化的关键特征分析

标准化在数据预处理方面提供了几个关键优势：

改善收敛性：归一化有助于算法在训练期间更快地收敛，尤其是在梯度下降等基于优化的算法中。
增强模型性能：标准化数据可以带来更好的模型性能和泛化能力，因为它可以降低过度拟合的风险。
特征的可比性：它允许直接比较不同单位和范围的特征，促进分析过程中的公平加权。
对异常值的稳健性：一些标准化技术，例如 Z 分数标准化，对异常值更具鲁棒性，因为它们对极端值不太敏感。