什么叫数据标准化 ?在Python中如何进行数据标准化?「必学」

主要内容:什么是数据标准化?在Python中如何进行数据标准化?一、Z标准化:实现中心化和正态分布;二、Min-Max:归一化;三、MaxAbs:最大绝对值标准化;四、RobustScaler。Python实例z-score;…

主要内容:

  • 什么是数据标准化?在Python中如何进行数据标准化?

一、Z标准化:实现中心化和正态分布;

二、Min-Max:归一化;

三、MaxAbs:最大绝对值标准化;

四、RobustScaler。

  • Python实例

z-score;

Min-Max;

MaxAbs;

RobustScaler。

数据标准化是数据预处理中非常重要的一步。在实际应用过程中,我们经常会遇到含有多种特征的数据集,这些特征常常有着不同的分布形态和区间,有着不同的量级(量纲),这很容易对我们的模型训练产生影响。而数据标准化,就是为了消除规模、特征和分布差异对模型的影响而存在。

另外,将各特征标准化之后,我们可以对其进行加权组合,从而生成新的指标,而原始数据往往不支持我们直接进行加权计算。

那么今天我们就来看一下,有哪些数据标准化的方法,以及它们分别如何在Python中实现。

一、Z标准化:实现中心化和正态分布

Z-Score标准化是基于原始数据的均值和标准差进行的标准化,其转化公式为:

其中,z是转化后的数据,x为转化前的数据,μ是整组数据的均值,σ是整组数据的标准差。

这种方法适合大多数类型的数据,其应用非常广泛。从公式里我们就可以看出来,转化之后其均值将变为0,而方差和标准差将变为1(考虑方差的公式),这部分如果不明白那就不妨在本子上推理一下哦。

二、Min-Max:归一化

Min-Max标准化方法会对原始数据进行线性变换,它的转换公式为:

很明显,当x为最大值时,会被转换为1;当x为最小值时,对应的新值为0;整组数据会分布在从0到1的区间内,而数据的分布形态并不会发生变化。

三、MaxAbs:最大绝对值标准化

在数据科学中,我们经常需要应对稀疏数据,MaxAbs方法对于稀疏数据有着良好的支持。MaxAbs标准化方法与Min-Max方法有些相似,其公式为:

即用每一个值除以整组数据中的绝对值的最大值,这样保留了原有数据的正负属性,且使数据落在了[-1,1]闭区间内。需要注意的是,先进行绝对值操作,然后选最大值,而不是先选择最大值,再求绝对值。我已经看到过很多文章把这里弄错了。举个例子,有一组数据[-0.01, -1, -2],如果我们先求最大值再求绝对值,别说归一化了,数据简直要钻到地缝里去了。

四、RobustScaler

有些时候,数据中会存在离群点(异常值)。这时如果我们使用z-score标准化就会导致数据很容易失去离群特征。这时我们就可以使用RobustScaler方法,它对于数据中心化和数据的缩放健壮性有着更强的参数调节能力。

Python实例

多说无益,放码过来,我们先导入必要的库、iris数据集,并进行一些必要的设置。

import numpy as np
import pandas as pd
from sklearn import preprocessing
import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns
from seaborn import load_dataset
sns.set()
mpl.rcParams['font.family'] = 'sans-serif'
mpl.rcParams['font.sans-serif'] = 'SimHei'
iris = load_dataset('iris').drop('species', axis=1)
iris.head()

我们先观察下前两列数据的原始分布情况:

sns.jointplot(data=iris, color='m',
 x='sepal_length', 
 y='sepal_width');

Z-score

我们先来演示z标准化。

z_scaler = preprocessing.StandardScaler()
iris_z = z_scaler.fit_transform(iris)
iris_z = pd.DataFrame(iris_z)
sns.jointplot(data=iris_z, color='m', x=0, y=1);

可以看到,数据分布形态变化不大,但是数据收敛到了0轴周围。

我们看一下转换后数据的均值和标准差:

可以看到,虽然有一点点小误差(量级非常小),但是数据基本上是符合均值为0、标准差为1的。

Min-Max标准化

然后是Min-Max归一化方法:

mm_scaler = preprocessing.MinMaxScaler()
iris_mm = mm_scaler.fit_transform(iris)
iris_mm = pd.DataFrame(iris_mm)
sns.jointplot(data=iris_mm, color='m', x=0, y=1);

这次我们在保持原有数据分布特性的同时,将数据收敛到了0到1之间。

MaxAbs标准化

ma_scaler = preprocessing.MaxAbsScaler()
iris_ma = ma_scaler.fit_transform(iris)
iris_ma = pd.DataFrame(iris_ma)
sns.jointplot(data=iris_ma, color='m', x=0, y=1);

由于iris数据集里没有负值,所以这里不能体现出[-1,1]的数据范围。我们为数据增加一些负值来看看:

iris_ma = pd.concat([iris_ma, iris_ma.applymap(lambda x: -x)])
sns.jointplot(data=iris_ma, color='m', x=0, y=1);

果然是[-1,1]呢,不过我们这里的操作只是为了演示,没有额外的意义。

RobustScaler

r_scaler = preprocessing.RobustScaler()
iris_r = ma_scaler.fit_transform(iris)
iris_r = pd.DataFrame(iris_r)
sns.jointplot(data=iris_r, color='m', x=0, y=1);

嗯……看起来跟MaxAbs没什么区别,这是因为这里不存在什么异常值。这个就留给你们自己来练习一下了!

 

版权声明:本文内容由网友提供,该文观点仅代表作者本人。本站(http://www.kuojiu.com/)仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 3933150@qq.com 举报,一经查实,本站将立刻删除。

版权声明:本文内容由作者小仓提供,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至907991599@qq.com 举报,一经查实,本站将立刻删除。如若转载,请注明出处:http://www.cangchou.com/178690.html

(0)
小仓的头像小仓

相关推荐

  • 鈦晶金髮晶有假的嗎,鈦晶猫眼怎麼看,鈦晶能造假嗎!

    鈦晶:真偽與其神奇之處 在水晶的世界中,鈦晶以其特有的金紅色和強大的能量效應引人注目。這種由鈦與氧化物組合而成的化合物,被認為具有吉祥的寓意和神奇的效應。然而,如同其他珍貴的物質,…

    网络快讯 2024年3月8日
    0
  • 红楼梦读后感500字左右 红楼梦读后感500字左右小学

    摘要1、红楼梦读后感《红楼梦》是一部感人的爱情小说。“丢弃了不离不弃黄金锁,忘记了莫失莫忘通灵玉”——-多情潇洒的贾宝玉,娇嫩多病的林黛玉,共演绎你在找红楼梦读后感500字左右吗?这里小编给你整理好了一些,接下来我们一起来看看吧。1、红楼梦读后感《红楼梦》是一部感人的爱情小说。…

    网络快讯 2023年11月30日
    0
  • 圣诞节要送女朋友礼物吗,不送会不会影响关系

    圣诞节是西方的重要节日之一,也是很多人期待的节日,因为在这一天,人们会收到来自亲朋好友的祝福和礼物。而对于情侣来说,圣诞节更是一个表达感情的好机会。那么,圣诞节要送女朋友礼物吗?不送会不会影响关系呢?下面就让我们一起来探讨一下这个问题。送礼物的意义首先,我们需要了解为什么要在圣诞节送…

    网络快讯 2023年10月20日
    0
  • epc总承包项目是什么意思(什么是EPC)

    EPC(EngineeringProcurementConstruction)是指公司受业主委托,按照合同约定对工程建设项目的设计、采购、施工、试运行等实行全过程或若干阶段的承包。通常公司在总价合同条件下,对其所承包工程的质量、安全、费用和进度进行负责。EPC的优势:较传统承包模式而言,…

    网络快讯 2023年12月13日
    0
  • 蚂蚁庄园小课堂今日最新答案 庄园小课堂2023年9月27日答案

    庄园小课堂2023年9月27日的答案都是什么?从支付宝中进入庄园小课堂,可以去完成支付宝每天出的题目,完成答题可以获得180g饲料,那么蚂蚁庄园小课堂今日最新答案9月27日的答案是…

    2023年10月2日
    0
  • 3d打印技术原理 、应用、优点与挑战

    3D打印技术是一种快速制造技术,也被称为增材制造技术。它是一种通过逐层堆叠材料来制造三维物体的过程。与传统的制造技术相比,3D打印技术具有许多优点。本文将探讨3D打印技术的原理、应用、优点和挑战。原理3D打印技术的原理是通过计算机辅助设计软件将三维模型转换为数字模型,然后将数字模型传输到3D…

    网络快讯 2023年11月16日
    0
  • 孕妇梦见吃枣子意味着什么

    1.孕妇梦见吃枣子人们在结婚的时候都会在床上铺满枣子、花生、桂圆、莲子,预示着早生贵子的美好愿望。所以说,红枣在生活中是比较吉祥的食物。所以孕妇梦见吃枣子,预示着孕妈和宝宝都会健康平安。有的则认为,孕妈很可能生下男宝宝!2.孕妇梦见吃大枣一看到大枣就流口水,大枣在孕妈的梦中也是比…

    网络快讯 2023年11月16日
    0
  • 电信版光猫路由模式下 你需要这样设置wifi路由器(详细图文)

    一、介绍光猫路由模式如何下挂路由器的设置方法这里注意:1、路由器先设置好在连接光猫。2、路由器管理地址和光猫地址必须要不同网段。‍二、具体操作方式定制E-LINK协议光猫,路由器设置方式将光猫LAN口与路由器WAN口连接,等待2-3分钟,光猫会自动下发无线名称…

    网络快讯 2023年11月14日
    0
  • 航天飞机有什么用

    航天飞机的任务,除了完成运载宇航员和科研物质,往返天地间以外,凭着本身宽大的容积,达载多名人员重负荷飞行运送,在太空进行大量的科学实验和空间研究。把人造卫星从地面带到太空释放,或把太空失效毁坏的无人航天器、轨道卫星人造天体进行修复再投入使用,甚至把欧空局空间的实验室装载进舱,进行多项科学研究。根据有…

    网络快讯 2023年11月16日
    0
  • 荨麻疹的11个过敏源(附日常注意事项)

    小儿荨麻疹的11个过敏源分别有哪些?导致出现荨麻疹具体原因复杂多样,很多人群自身都无法明确具体的过敏源,这时一旦遇到外界的刺激源,过敏源时,就又会诱发荨麻疹的出现。荨麻疹的出现让人难以忍受,瘙痒异常,不说小孩大人都是难以忍耐。特别是对于小孩来讲,更要注意过敏源的接触,一般情况下小儿荨麻疹常见的过敏源…

    网络快讯 2023年12月1日
    0

发表回复

登录后才能评论