注册 登录  
 加关注
查看详情
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

Wei Ding blog

 
 
 

日志

 
 

简析条形图(bar plot)上的误差线(转载)  

2013-12-05 08:35:57|  分类: 答疑 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

http://office.microsoft.com/zh-CN/products/excel/rz001190626.aspx?lc=zh-cn&section=10
误差线指示每个数据点的不确定性范围。

由于样品不纯、天平和其他设备的精度有限,当然还有实验人员自身的限制,实验中常常会出现误差。要在图表中准确地表述数据,应该在每个数据点上添加误差线。误差值是根据这些已知因素计算出来的,应该作为数据记录的一部分包括在图表内。

误差线指示每个数据点的误差(或不确定性)范围。误差线以更加准确的方式呈现数据,因为这样您就可以知道每个数据点的可能范围。添加误差线时,会自动为整个数据范围进行添加,您不能单独为每个点添加误差线。 

在 Excel 中,只有某些图表类型才支持误差线:



http://blog.sciencenet.cn/blog-430956-717889.html 

 

经常会遇到有人问条形图上误差线画什么的问题,有人说标准差(sd),有人说标准误(se),有的直接说置信区间(CI),其实这倒也不是什么大问题,你按什么画就在文章中注明就是了。后来看到JCB上有一篇科普文章,分析的比较到位,就把里面的干货跳出来翻译一下并对其中的难点进行解读,既是总结也是提高,懒得看过程可直接看文末的规则。


 

概念问题


误差线 种类 描述 公式
范围 描述性 极值间距离 简析条形图(bar plot)上的误差线(转载) - dingding830106 - Wei Ding blog 
标准差 描述性 数据点与均值的平均差异 简析条形图(bar plot)上的误差线(转载) - dingding830106 - Wei Ding blog
标准误 推断性 重复多次均值的变化 简析条形图(bar plot)上的误差线(转载) - dingding830106 - Wei Ding blog 
置信区间(95%) 推断性 一个有95%信心出现均值的范围  简析条形图(bar plot)上的误差线(转载) - dingding830106 - Wei Ding blog

标准差


 

标准差是描述性统计里用来表示数据本身均值范围的,两倍标准差范围以外就可能是异常值了,标准差的使用不牵扯均值对比推测,仅仅是描述性的。样本标准差会随着样本数增加接近总体标准差,可用来作为总体标准差的估计,不随样本数变化而变化。


 

既然随着样本数增加样本标准差与总体标准差是一致的,怎么又说不随样本数变化?

你可以这样理解,总体方差是客观存在的,我们用样本去对总体方差进行估计,具体的算法就是上面那个公式,可用点估计方法自行推导,得到的就是一个接近总体方差的数,这个数当然不会随样本数发生变化了。至于说公式,要记住伴随样本数增大,分子也在增大,所以整体上这个数是不会随样本数发生变化,毕竟只是一个估值无偏性的问题。


 

标准误


 

置信区间是针对均值自身而言的,是对均值真实值出现范围的估计,在这一范围内每个点都可能是真值,在置信区间的计算中也会用到标准误。因为涉及均值出现范围,一般就会涉及均值比较与估计的问题,谁比谁大或小,是否显著,这属于推断性统计。置信区间与样本是相关的,越大越不准,越小表示准确度高(样本数自然要大一些)。在使用这类误差线时要考虑自己是否有此意图。


 

95%置信区间中样本平均值的地位

这个95%的置信度可以用仿真实验来掩饰,谢益辉写的R扩展包animation中conf.int()可以很清楚的演示这一过程:不断从总体中取样并计算95%置信区间,重复n次,最后统计区间包含总体均值的概率你会发现有95%的区间包含的真值。区间包含真值的概率是95%,而不是真值在这个区间里变动,计算出的置信区间可能不包含真值,毕竟置信度为95%。样本的均值是没有固定位置的会跟着取样走,但总体均值不会乱跑,因为不知道,所以用含有置信度的区间估计会更可靠一些。

标准误与置信区间的区别

看公式就知道了,标准误跟着样本数走,样本数越大,标准误越小,很多文章会使用MSE,这代表了均值的标准误。应该说重复越多,这个数就越压缩均值出现的范围,一般而言都是样本数为3,不是因为多了不行,而是说3个样本可以说明问题,有条件当然样本多了好了,结果会更准。置信区间还涉及一个t值的问题,在样本数较少例如3的时候,t值比较大,约为4,样本数多于10,一般就是2左右了。置信区间在一定程度上对样本数不如标准误敏感,给出MSE与样本数是可以推测置信区间的,样本数为3就是4倍MSE,为10就是3倍MSE。

如何利用置信区间来判断显著性

置信区间是统计估计问题,显著性是统计推断问题,这是首先需要分清楚的,然后看下面这个来自原文的图就很清楚了。通过间距判断就可以,这里需要纠正的问题就是一定要间距完全分开才有显著性差异,根据情况来。

alt text

alt text


 

样本数


 

使用样本数要注意你是一个样本重复测定n次,还是n个样本测定1次。前者表示同一样本,n实际为1,后者表示独立样本,样本数为n。如果你展示的是一组代表性独立数据,那就不用给出重复测定误差线,这对总体推断没多大意义。


 

实验设计中的可重复性究竟指的是什么?

一个实验设计三个平行,重复了4次,那么n应该是多少?n为4,因为这4次测定是与你要检验的假说有关的,那三个平行取均值就可以了,作为对数据真实性的保证。保证数据可用与重复性是两个概念,这一点是经常被混淆的。有人做实验重复了10次发现其中有1次结果是可用的就用这组数据去写文章,里面实际只有平行,没有重复。实际的科研是要考虑这10次结果的,当然前提是每次实验所有操作都是一致的,只用一组数据去写文章是碰运气,可以说完全没有重复性,这里每一次重复代表获得一次独立样本。当然这也分情况,根据你的题目自行考虑。

如何表示重复测量数据?

做分析的会比较关注,组内重复测量数据对于组间比较是没有意义的。例如在暴露实验中,同一时间点的数据带有误差线的暴露组与对照组是可比的,但是不同时间点的数据置信区间就没什么意义了,或者你可以用配对t检验差值的方法来考虑同一组内不同时间点测定区别是否显著。一般遇到这个问题都是考虑影响因素的时候,最好每个因素单一考虑,当然你也可以设计正交实验。重复性与独立性是相对的,根据你的实验设计来决定。


 

规则


 

使用误差线要注明种类


 

要注明样本数n


 

误差线与显著性只用在独立重复实验上,代表性的实验结果不应该包含误差线与P值,因为这相当于n=1


 

推断性实验的误差线最好使用标准误或置信区间,对于n为3的实验,可直接列出3次的结果,不标注误差线


 

95%置信区间表示有95%信心里面有总体的均值,n为3时,标准误的4倍为这个区间


 

n为3,两倍标准误不重复覆盖,P < 0.05, 刚好覆盖,P接近0.05;n大于10,间距1倍标准误,P接近0.05,两倍就是0.01


 

置信范围表示误差线时,n为3,重叠一臂,P为0.05;重叠半臂,P为0.01


 

同一组内的重复实验,标准误与置信区间不能用来表示组内差异


  评论这张
 
阅读(2194)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018