什么叫数据标准化 ?在Python中如何进行数据标准化?「必学」

主要内容:什么是数据标准化?在Python中如何进行数据标准化?一、Z标准化:实现中心化和正态分布;二、Min-Max:归一化;三、MaxAbs:最大绝对值标准化;四、RobustScaler。Python实例z-score;…

主要内容:

  • 什么是数据标准化?在Python中如何进行数据标准化?

一、Z标准化:实现中心化和正态分布;

二、Min-Max:归一化;

三、MaxAbs:最大绝对值标准化;

四、RobustScaler。

  • Python实例

z-score;

Min-Max;

MaxAbs;

RobustScaler。

数据标准化是数据预处理中非常重要的一步。在实际应用过程中,我们经常会遇到含有多种特征的数据集,这些特征常常有着不同的分布形态和区间,有着不同的量级(量纲),这很容易对我们的模型训练产生影响。而数据标准化,就是为了消除规模、特征和分布差异对模型的影响而存在。

另外,将各特征标准化之后,我们可以对其进行加权组合,从而生成新的指标,而原始数据往往不支持我们直接进行加权计算。

那么今天我们就来看一下,有哪些数据标准化的方法,以及它们分别如何在Python中实现。

一、Z标准化:实现中心化和正态分布

Z-Score标准化是基于原始数据的均值和标准差进行的标准化,其转化公式为:

其中,z是转化后的数据,x为转化前的数据,μ是整组数据的均值,σ是整组数据的标准差。

这种方法适合大多数类型的数据,其应用非常广泛。从公式里我们就可以看出来,转化之后其均值将变为0,而方差和标准差将变为1(考虑方差的公式),这部分如果不明白那就不妨在本子上推理一下哦。

二、Min-Max:归一化

Min-Max标准化方法会对原始数据进行线性变换,它的转换公式为:

很明显,当x为最大值时,会被转换为1;当x为最小值时,对应的新值为0;整组数据会分布在从0到1的区间内,而数据的分布形态并不会发生变化。

三、MaxAbs:最大绝对值标准化

在数据科学中,我们经常需要应对稀疏数据,MaxAbs方法对于稀疏数据有着良好的支持。MaxAbs标准化方法与Min-Max方法有些相似,其公式为:

即用每一个值除以整组数据中的绝对值的最大值,这样保留了原有数据的正负属性,且使数据落在了[-1,1]闭区间内。需要注意的是,先进行绝对值操作,然后选最大值,而不是先选择最大值,再求绝对值。我已经看到过很多文章把这里弄错了。举个例子,有一组数据[-0.01, -1, -2],如果我们先求最大值再求绝对值,别说归一化了,数据简直要钻到地缝里去了。

四、RobustScaler

有些时候,数据中会存在离群点(异常值)。这时如果我们使用z-score标准化就会导致数据很容易失去离群特征。这时我们就可以使用RobustScaler方法,它对于数据中心化和数据的缩放健壮性有着更强的参数调节能力。

Python实例

多说无益,放码过来,我们先导入必要的库、iris数据集,并进行一些必要的设置。

import numpy as np
import pandas as pd
from sklearn import preprocessing
import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns
from seaborn import load_dataset
sns.set()
mpl.rcParams['font.family'] = 'sans-serif'
mpl.rcParams['font.sans-serif'] = 'SimHei'
iris = load_dataset('iris').drop('species', axis=1)
iris.head()

我们先观察下前两列数据的原始分布情况:

sns.jointplot(data=iris, color='m',
 x='sepal_length', 
 y='sepal_width');

Z-score

我们先来演示z标准化。

z_scaler = preprocessing.StandardScaler()
iris_z = z_scaler.fit_transform(iris)
iris_z = pd.DataFrame(iris_z)
sns.jointplot(data=iris_z, color='m', x=0, y=1);

可以看到,数据分布形态变化不大,但是数据收敛到了0轴周围。

我们看一下转换后数据的均值和标准差:

可以看到,虽然有一点点小误差(量级非常小),但是数据基本上是符合均值为0、标准差为1的。

Min-Max标准化

然后是Min-Max归一化方法:

mm_scaler = preprocessing.MinMaxScaler()
iris_mm = mm_scaler.fit_transform(iris)
iris_mm = pd.DataFrame(iris_mm)
sns.jointplot(data=iris_mm, color='m', x=0, y=1);

这次我们在保持原有数据分布特性的同时,将数据收敛到了0到1之间。

MaxAbs标准化

ma_scaler = preprocessing.MaxAbsScaler()
iris_ma = ma_scaler.fit_transform(iris)
iris_ma = pd.DataFrame(iris_ma)
sns.jointplot(data=iris_ma, color='m', x=0, y=1);

由于iris数据集里没有负值,所以这里不能体现出[-1,1]的数据范围。我们为数据增加一些负值来看看:

iris_ma = pd.concat([iris_ma, iris_ma.applymap(lambda x: -x)])
sns.jointplot(data=iris_ma, color='m', x=0, y=1);

果然是[-1,1]呢,不过我们这里的操作只是为了演示,没有额外的意义。

RobustScaler

r_scaler = preprocessing.RobustScaler()
iris_r = ma_scaler.fit_transform(iris)
iris_r = pd.DataFrame(iris_r)
sns.jointplot(data=iris_r, color='m', x=0, y=1);

嗯……看起来跟MaxAbs没什么区别,这是因为这里不存在什么异常值。这个就留给你们自己来练习一下了!

 

版权声明:本文内容由网友提供,该文观点仅代表作者本人。本站(http://www.kuojiu.com/)仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 3933150@qq.com 举报,一经查实,本站将立刻删除。

版权声明:本文内容由作者小仓提供,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至907991599@qq.com 举报,一经查实,本站将立刻删除。如若转载,请注明出处:http://www.cangchou.com/178690.html

(0)
小仓的头像小仓

相关推荐

  • 低分捡漏的公办二本院校(2023最好考的本科大学)

    低分捡漏的公办二本院校(2023最好考的本科大学)随着高考的落幕,各个省份的同学们也陆续查到了分数,也许对于一部分同学来说,高考并没有发挥好,会留有遗憾,但希望同学们都能放宽心,高考虽然重要,但对比生命漫长的几十年来说仍然是十分渺小的,人生不会因为一次失利便完蛋。高考虽然已经结束,但志愿填报时高中…

    网络快讯 2023年12月4日
    0
  • 抖音名字30天修改4次怎么办,抖音名字超过四次了还可以改吗

    抖音名字有次数限制相信很多经常修改抖音名字的朋友都发现了,目前,它的要求是每个月只能修改四次,如果超过了四次,那么,这时候就需要等待一个月时间才能够继续修改名字,也因为这样,有很多…

    网络快讯 2024年3月6日
    0
  • 君子敏于行讷于言是什么意思,君子敏于行而讷于言怎么对下一句

      君子敏于行讷于言是什么意思,君子敏于行而讷于言怎么对下一句是“君子敏于行讷于言”意思是做事勤奋敏捷,说话却谨慎的。  关于君子敏于行讷于言是什么意思,君子敏于行而讷于言怎么对下一句以及君子敏于行讷于言是什么意思,君子敏于行讷于言是什么意思解释,君子敏于行而讷于言怎么对下一句,君子敏于行而纳于…

    网络快讯 2023年11月27日
    0
  • 小宝宝可以听耳机吗 宝宝可以戴耳机听歌吗

    9岁以下的宝宝不可以戴耳机听音乐,长期给宝宝用耳机听歌,会容易造成听觉疲劳。同时造成宝宝耳朵毛细胞的损害,影响宝宝的听力。宝宝戴耳机听歌的危害1、有可能造成宝宝耳朵毛细胞损伤。因为宝宝小的时候,听觉器官证处于发育的阶段,还比较脆弱,如果给宝宝用耳机听歌的话,会造成宝宝听力损伤。2、当耳机…

    网络快讯 2023年12月16日
    0
  • 孝感西大市场在哪 16路车公交路线时间表孝感?

    大东门菜市场长湖菜市场西大菜市场……最大的是大东门。天桥还有一个彭家湾菜市场。孝感市宠物市场在哪?那里在西部有一个狗市,那里在蓝色新都的侧门有一家宠物店卖狗。那里虞姬商贸城后面的小区里还有一家宠物店,养着三只狗和四只猫。文化路的狗不好!湖北孝感…

    网络快讯 2023年10月22日
    0
  • 南方和北方的分界线 南方和北方的区别

    中国南方与北方的分界线到底在哪里似乎一直没有明确的定论,不过我们唯一能确定的是中国南方北方的各种差异是很大的。比如北方冬天干冷,南方冬天湿冷,北方人喜欢吃面食,南方人喜欢吃米饭。那么南方和北方的分界线是哪里呢?让我们赶紧一起来看看吧。南方和北方的分界线南方和北方的分界线为秦岭—淮河一线,中学…

    2023年12月1日
    0
  • 捷克隕石有什麼用處?捷克隕石有什麼用途和價值?

    捷克隕石的奧秘:功效、禁忌、價值與保養之道 自古以來,隕石一直是人們心中神秘且富有傳奇色彩的存在。它們從浩瀚的宇宙中墜落,帶著星辰的記憶和宇宙的訊息。其中,捷克隕石因其獨特的屬性和…

    网络快讯 2024年3月9日
    0
  • 40分的钻戒小吗,与其他钻戒相比算小吗

    本文目录一览什么是40分的钻戒40分的钻戒与其他钻戒相比算小吗如何选择适合自己的钻戒大小总结钻石作为一种珍贵的宝石,一直以来都是人们心目中的梦幻之物。当我们提到钻石时,很多人会想到大而亮丽的钻戒,因为钻戒代表着爱情和承诺。然而,对于购买钻戒的人来说,选择一…

    网络快讯 2023年10月20日
    0
  • 天然水晶紫水晶首饰日常佩戴禁忌,八个注意方面

    随着市场经济的快速发展,人们多装饰品也随之增长,从喜爱翡翠玉石首饰到彩色珠宝首饰,其中的紫水晶珠串项链戒指首饰更是备受众人的关注,那么佩戴紫水晶手链有哪些影响因素呢或者说要注意哪些…

    网络快讯 2024年2月27日
    0
  • 补胎液一次要用一瓶吗(补胎液有毒吗)

    补胎液一次要用一瓶吗(补胎液有毒吗)补胎液是车主们用的比较少的汽车用品,轮胎漏气通常会去修理店修理,但紧急情况下或者在高速路内漏气,车主们一般都会手足无措,有备胎的情况还好,可以更换备胎,但有的车型不配备备胎,或者备胎长期不用出现了损坏就很麻烦,这时候我们可以用补胎液,轻松搞定漏气问题!补胎液…

    网络快讯 2023年12月4日
    0

发表回复

登录后才能评论