Excel做数据分析——回归分析

2007-08-29 作者: 来源:网络
    我们已经知道在Excel自带的数据库中已有线性拟合工具,但是它还稍显单薄,今天我们来尝试使用较为专业的拟合工具来对此类数据进行处理。
  在数据分析中,对于成对成组数据的拟合是经常遇到的,涉及到的任务有线性描述,趋势预测和残差分析等等。很多专业读者遇见此类问题时往往寻求专 业软件,比如在化工中经常用到的Origin和数学中常见的MATLAB等等。它们虽很专业,但其实使用Excel就完全够用了。我们已经知道在 Excel自带的数据库中已有线性拟合工具,但是它还稍显单薄,今天我们来尝试使用较为专业的拟合工具来对此类数据进行处理。
  注:本功能需要使用Excel扩展功能,如果您的Excelexcel做直方图的详细步骤尚未安装数据分析,请依次选择工具-加载宏,在安装光盘支持下加载分析数据库。加载成功后,可以在工具下拉菜单中看到数据分析选项
  实例 某溶液浓度正比对应于谱仪器中的峰面积,现欲建立不同浓度下对应峰面积的标准曲线以供测试未知样品的实际浓度。已知8组对应数据,建立标准曲线,并且对此曲线进行评价,给出残差等分析数据。
  这是一个很典型的线性拟合问题,手工计算就是采用最小二乘法求出拟合直线的待定参数,同时可以得出R的值,也就是相关系数的大小。在Excel中,可以采用先绘图再添加趋势线的方法完成前两步的要求。
  选择成对的数据列,将它们使用XY散点图制成散点图。
  在数据点上单击右键,选择添加趋势线-线性,并在选项标签中要求给出公式和相关系数等,可以得到拟合的直线。
  由图中可知,拟合的直线是y=15620x+6606.1R2的值为0.9994
因为R2 >0.99,所以这是一个线性特征非常明显的实验模型,即说明拟合直线能够以大于99.99%地解释、涵盖了实测数据,具有很好的一般性,可以作为标准工作曲线用于其他未知浓度溶液的测量。
  为了进一步使用更多的指标来描述这一个模型,我们使用数据分析中的回归工具来详细分析这组数据。
  在选项卡中显然详细多了,注意选择XY对应的数据列。常数为零就是指明该模型是严格的正比例模型,本例确实是这样,因为在浓度为零时相应 峰面积肯定为零。先前得出的回归方程虽然拟合程度相当高,但是在x=0时,仍然有对应的数值,这显然是一个可笑的结论。所以我们选择常数为零
  回归工具为我们提供了三张图,分别是残差图、线性拟合图和正态概率图。重点来看残差图和线性拟合图。
  在线性拟合图中可以看到,不但有根据要求生成的数据点,而且还有经过拟和处理的预测数据点,拟合直线的参数会在数据表格中详细显示。本实例旨在 提供更多信息以起到抛砖引
玉的作用,由于涉及到过多的专业术语,请各位读者根据实际,在具体使用中另行参考各项参数,此不再对更多细节作进一步解释。
残差图是有关于世纪之与预测值之间差距的图表,如果残差图中的散点在中州上下两侧零乱分布,那么拟合直线就是合理的,否则就需要重新处理。
  更多的信息在生成的表格中,详细的参数项目完全可以满足回归分析的各项要求。下图提供的是拟合直线的得回归分析中方差、标准差等各项信息。
Excel做数据分析——移动平均
 
  某化工反应过程,每隔2分钟对系统测取一次压力数据。由于反应的特殊性,需要考察每8分钟的压力平均值,如果该压力平均值高于15MPa,则认为自属于该平均值计算范围内的第一个压力数据出现时进入反应阶段,请使用Excel给出反应阶段时间的区间。
  移动平均就是对一系列变化的数据按照指定的数据数量依次求取平均,并以此作为数据变化的趋势供分析人员参考。移动平均在生活中也不乏见,气象意义上的四季界定就是移动平均最好的应用。
  注:本功能需要使用Excel扩展功能,如果您的Excel尚未安装数据分析,请依次选择工具-加载宏,在安装光盘支持下加载分析数据库。加载成功后,可以在工具下拉菜单中看到数据分析选项。
  操作步骤
  1.打开原始数据表格,制作本实例的原始数据要求单列,请确认数据的类型。本实例为压力随时间变化成对数据,在数据分析时仅采用压力数据列。
  需要注意的是,因为平均值的求取需要一定的数据量,那么就要求原始数据量不少于求取平均值的个数,在Excel中规定数据量不少于4
 2.选择“工具”-“数据分析”-“直方图”后,出现属性设置框,依次选择:
  输入区域:原始数据区域;如果有数据标签可以选择“标志位于第一行”;
  输出区域:移动平均数值显示区域;
  间隔:指定使用几组数据来得出平均值;
  图表输出;原始数据和移动平均数值会以图表的形式来显示,以供比较;
  标准误差:实际数据与预测数据(移动平均数据)的标准差,用以显示预测与实际值的差距。数字越小则表明预测情况越好。
  3.输入完毕后,则可立即生成相应的数据和图表。
  从生成的图表上可以看出很多信息。
  根据要求,生成的移动平均数值在9:02时已经达到了15.55MPa,也就是说,包含本次数据在内的四个数据前就已经达到了15MPa,那么 说明在8分钟前,也就是8:56时,系统进入反应阶段;采用同样的分析方法可以知道,反映阶段结束于9:10,反应阶段时间区间为8:56-9:10,共 持续14分钟。
  单击其中一个单元格“D6”,可以看出它是“B3-B6”的平均值,而单元格“E11”则是“SQRT(SUMXMY2(B6:B9,D6:D9)/4)”,它的意思是B6-B9,D6-D9对应数据的差的平方的平均值再取平方根,也就是数组的标准差。
Excel做数据分析直方图
 
  使用Excel 带的数据分析功能可以完成很多专业软件才有的数据统计、分析,这其中包括:直方图、相关系数、协方差、各种概率分布、抽样与动态模拟、总体均值判断,均值 推断、线性、非线性回归、多元回归分析、时间序列等内容。下面将对以上功能逐一作使用介绍,方便各位普通读者和相关专业人员参考使用。
  :本功能需要使用Excel扩展功能,如果您的Excel尚未安装数据分析,请依次选择工具-加载宏,在安装光盘中加载分析数据库。加载成功后,可以在工具下拉菜单中看到数据分析选项。
实例1
  某班级期中考试进行后,需要统计各分数段人数,并给出频数分布和累计频数表的直方图以供分析。
  以往手工分析的步骤是先将各分数段的人数分别统计出来制成一张新的表格,再以此表格为基础建立数据统计直方图。使用Excel中的数据分析功能可以直接完成此任务。
 操作步骤
  1.打开原始数据表格,制作本实例的原始数据要求单列,确认数据的范围。本实例为化学成绩,故数据范围确定为0-100。
  2.在右侧输入数据接受序列。所谓“数据接受序列”,就是分段统计的数据间隔,该区域包含一组可选的用来定义接收区域的边界值。这些值应当按升 序排列。在本实例中,就是以多少分数段作为统计的单元。可采用拖动的方法生成,也可以按照需要自行设置。本实例采用10分一个分数统计单元。
  3.选择“工具”-“数据分析”-“直方图”后,出现属性设置框,依次选择:
  输入区域:原始数据区域;
  接受区域:数据接受序列;
  如果选择“输出区域”,则新对象直接插入当前表格中;
  选中“柏拉图”,此复选框可在输出表中按降序来显示数据;
  若选择“累计百分率”,则会在直方图上叠加累计频率曲线;
 4.输入完毕后,则可立即生成相应的直方图,这张图还需要比较大的调整。
  主要是:
  横纵坐标的标题、柱型图的间隔以及各种数据的字体、字号等等。
  为了达到柱型图之间无缝的紧密排列,需要将“数据系列格式”中的“选项”中“分类间距”调整为“0”。其余细节,请双击要调整的对象按照常规方法进行调整,这里不再赘述。
  调整后的直方图参考如下

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。