python实现数据预处理之箱光滑
题⽬: 给定⼀个数据集,该数据集中含有⼤量的噪⾳数据。具体操作要求:1)该数据集的偶数位均为噪⾳数据,判断偶数位是否为0,若为0,利⽤1替换。2)对转换后的数据集进⾏排序,利⽤分箱技术来光滑数据。假设有10个桶,实现“⽤箱均值光滑”、“⽤箱中位数光滑”、“⽤箱边界光滑”三种技术。
<:
这只是⼀部分数据,只是为了⽰例噪⾳数据
103203
401000
000100
000070
089090
060503
607010
......
解题思路:⾸先读⼊数据到列表⾥,然后对数据进⾏排序,将数据划分到10个箱中。对于箱均值光滑,箱中每⼀个值都被替换为箱中的均值。对于箱中位数光滑,箱中每⼀个值都被替换为箱中的中位数。对于箱边界光滑,箱中每⼀个值都被替换为最近的边界值。
以下为python代码实现部分:
import numpy as np
def binning(filename,box_num):
my_list=[]
my_list1=[]
noise_data = open(filename)
for line in adlines():
dataline=line.strip()
my_list.append(dataline)
for i in range(0,len(my_list)):
my_list[i]=int(my_list[i])
if (i+1) % 2==0and my_list[i]==0:
my_list[i]=1
my_list1=sorted(my_list)
#print my_list1
box_list=[]
len_box=il(len(my_list1)/float(box_num)))
for i in range(0,10):
python新手代码你好
each_box=my_list1[i*len_box:(i+1)*len_box]
box_list.append(each_box)
return box_list
def box_mean_smooth(box_list):
for i in range(0,len(box_list)):
box_avg=int(np.average(box_list[i]))
for j in range(0,len(box_list[i])):
box_list[i][j]=box_avg
return box_list
def box_mid_smooth(box_list):
for i in range(0,len(box_list)):
box_mid=dian(box_list[i]))
for j in range(0,len(box_list[i])):
box_list[i][j]=box_mid
return box_list
def box_boundary_smooth(box_list):
for i in range(0,len(box_list)):
left_bdy=box_list[i][0]
right_bdy=box_list[i][-1]
for j in range(0,len(box_list[i])):
if abs(box_list[i][j]-left_bdy)<abs(box_list[i][j]-right_bdy):                box_list[i][j]=left_bdy
else:
box_list[i][j]=right_bdy
return box_list
filename=''
box_list=binning(filename,10)
print box_list
print box_mean_smooth(box_list)
print box_mid_smooth(box_list)
print box_boundary_smooth(box_list)
下图为实验结果截图:
由于数据较多,截图只是⼀部分

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。