数据处理
- 数值型数据:标准缩放
- 归一化
- 标准化
- 缺失值
- 类别型数据:one-hot编码
- 时间类型:时间的切分
一、数据的归一化处理
1 | 特点:通过对原始数据进行变化,把数据映射到[0,1](默认)之间,可以让不同类别特征值之间达到"平衡",数值操作的时候达到同等重要的作用。 |
二、数据的标准化(常用)
1 | 标准化可以减少错误数据对最终结果的影响 |
三、有缺失值处理
数据中有缺失值时,有时候考虑到数据集本身少,尽量避免删除数据,所以对缺少值进行人为添加值,一般使用改特征的平均数或中位数进行覆盖。
1 | def im(): |
降维
使对结果不重要的特征尽可能不影响结果(将该特征删除,维度只的是特征个数)
降维主要方法:
- Filter过略式 VarianceThreshold
- Embedded嵌入式 正则化、决策树
- Wrapper包裹式
1
2
3
4
5
6
7
8
9
10
11
12
13
14def var():
"""
特征选择 删除低方差的特征
return None
"""
var = VarianceThreshold(threshold=1.0) # 删除方差小于1的
data = var.fit_transform([[0,2,0,3], [0,1,4,3], [0,1,1,3]])
print(data)
"""
[[2, 0]
[1, 4]
[1,1]]
"""
return None