python对数据求均值_使用NA将数据读取到python中并按行计算均值

python对数据求均值_使⽤NA将数据读取到python中并按⾏计

算均值

我正在读取csvfile中的数据，并尝试按列计算平均值。虽然列数是固定的，但⾏数不是固定的。因此，我⾸先读⼊需要的⾏，将它们制成列

表，然后形成该列表的numpy数组。但这是⾏不通的。

import csv

import numpy

读⼊(循环遍历每个⽂件并到匹配项，然后将其追加)：

with open(input_file, mode='r') as f:

reader = ader(f, delimiter=';')

for row in reader:

pass

# matchin algorithm omitted

found_line = row

del found_line[0] #remove first entry on name

input_file好像

Weihnachtsmann;16;30.3125;0.00677830307346;0.000491988890358;0.2796728754;0.00371057513915;0.00066711

Tannenbaum;6;33.5;0.032918005099;0.00312809941211;0.308224811515;0.0124857679873;0.00644874360685;0.0

Heilier Klaus;1;NA;NA;NA;NA;NA;NA;NA

然后，从匹配的条⽬中列出⼀个列表：

author_list.append(','.join(found_line))

author_array = numpy.array(author_list)

我不是⾸先创建numpy数组，因为我听说它附加到numpy数组中是⾮Python且缓慢。

print author_arry

产量

['1,NA,NA,NA,NA,NA,NA'

'6;33.5;0.032918005099;0.00312809941211;0.308224811515;0.0124857679873;0.00644874360685;0.00066711140760 '16;30.3125;0.00677830307346;0.000491988890358;0.2796728754;0.00371057513915;0.000667111407605;0.0017789

但我什⾄不确定这是⼀个具有我想要的尺⼨的数组(应该是⼋列)还是⼀列三⾏。

之后，我必须将NA来⾃的R转换为numpy的NaN(如果我正确的话)，我不知道该怎么做。我试过了

[place('NA','nan') for author_entry in author_list]

但我得到⼀个错误。

解决⽅案

您可以使⽤NumPy从⽂件中读取数据的⽅式有多种。这是使⽤的⼀种⽅法np.genfromtxt。第⼀列中的名称将成为NumPynan值，⽂件中

的任何其他⾮浮点字符串也是如此：

>>> arr = np.genfromtxt(input_file, delimiter=';', dtype=np.float64)

>>> arr

array([[ nan, 1.60000000e+01, 3.03125000e+01,

6.77830307e-03, 4.91988890e-04, 2.79672875e-01,

3.71057514e-03, 6.67111408e-04, 1.77896375e-03],

[ nan, 6.00000000e+00, 3.35000000e+01,

3.29180051e-02, 3.12809941e-03, 3.08224812e-01,

1.24857680e-02, 6.44874361e-03, 6.67111408e-04],

python怎么读csv数据[ nan, 1.00000000e+00, nan,

nan, nan, nan,

nan, nan, nan]])

这是⼀个3⾏9列的数组。要删除每⼀⾏的第⼀项，您可以使⽤进⾏切⽚和重新分配arr = arr[:, 1:]。您可以使⽤来计算按⾏平均值np.nanmean(nan在计算平均值时忽略值)：

>>> np.nanmean(arr, axis=1)

array([ 5.82569998, 4.98298407, 1. ])

688IT编程网

python对数据求均值_使用NA将数据读取到python中并按行计算均值_百度文 ...

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林特征选择原理

自动驾驶系统中的随机森林算法解析

随机森林算法及其在生物信息学中的应用

监督学习中的随机森林算法解析(六)

随机森林算法在数据分析中的应用

机器学习——随机森林,RandomForestClassifier参数含义详解

随机森林的算法

随机森林算法作用

监督学习中的随机森林算法解析(十)

随机森林算法案例

随机森林案例

二分类问题常用的模型

绘制ssd框架训练流程

一种基于信息熵和DTW的多维时间序列相似性度量算法

SVM训练过程范文

如何使用支持向量机进行股票预测与交易分析

二分类交叉熵损失函数binary

tinybert_训练中文文本分类模型_概述说明

基于门控可形变卷积和分层Transformer的图像修复模型及其应用

人工智能开发技术的测试和评估方法

最新文章

基于随机森林的数据分类算法改进

人工智能中的智能识别与分类技术

基于人工智能技术的随机森林算法在医疗数据挖掘中的应用

随机森林回归模型的建模步骤

r语言随机森林预测模型校准曲线

《2024年随机森林算法优化研究》范文

标签列表