
科学的研究设计有4个原则:随机化、设对照、用盲法、可重复。
敲黑板,这是一道必考题!
但是基层的小伙伴们,限于机构层级和个人能力,自主开展些最基础的横断面调查研究就很不错了。
那么对照和盲法在此就可以忽略,又由于考虑到将来再可重复,所以样本量也都不care了。大有今年不成,明年再来一次,凑到样本量足够为止,颇有些“今朝有酒今朝醉”的意思。
只有“随机化”原则是怎么也躲不过去的,除非来的是普查。
一
要做到随机化,如何抽样很关键。
从上到下有很多分层分群后随机抽样的姿势,对于社区的同事来讲,能做到在限定的目标人群中,实现单纯随机抽样就是最佳的了。
方法也很简单,先把限定的目标人群的全体名单拿到手,也就是常说的“花名册”。如果并不知道具体人名,还可以用辖区内的门牌号码来替代。
过去会用扔骰子或者查随机数表的方式确定先后调查顺序,或者更简单的末尾门牌号码间隔法。
现如今名册都已经Excel表格化了,实现完全随机数辅助抽样十分的方便。
只要添加一列公式“=rand()”就能赋予随机数。
试过的小伙伴都觉得这个函数很淘气,特别善变,其实真得不要紧,随它变吧。
赋值后,再对随机数进行排序,从小到大或者从大到小均可。
不要担心TA变来变去影响抽样,实在强迫症上身,就在全选复制后,右键一下鼠标,跳出选择菜单,选定“选择性粘贴”,点击“数值”后确定粘贴,这小子就老实了。

回过头再问一声为什么,这函数返回的值,变来变去得会产生偏差吗?
是绝对不会的,因为它的每次变动,都是在生成毫无规律的随机数,所以确保了每条记录被抽中的概率是一致的。
排好序后,就可以从第1个开始调查,直到完成指定样本量即可。
二
现实世界中,却是很难实现Excel表中的随机理想。
比如无奈的拒绝调查,或者干脆就无人在家而调查不到,那就只能调查一位性别、年龄等特征相仿的对象,最好就住在隔壁。
调查员还得快速评估,除了看脸看身材,要对其年龄、文化程度、职业类型等予以掌握,因为替补最好与真身基本一致,如果偏差太远,还不如不调查。
而正因为调查对象可替补的事实,滋生出某些社区将“随机化”弃之如敝履。
不管随机数的排序,先把好做的熟人挑出来,再把抽样框里住在一块儿的人挑出来调查。
这样做的目的,并不是挑战权威,仅仅是为了偷懒。
其实也不能说是偷懒,还是活多钱少难度大给逼的。
三
但是这样做的后果,是会使人心里发虚的。
运气好的,可能不仅顺利完成了调查任务,连调查结果统计出来都非常漂亮。
但这些结果是真实的吗?
如果这样也行的话,更容易让人产生怀疑,不走随机抽样也照样能出“好”结果,那以后就TM不要走了。
这个时候,学统计的就要拦人去普及随机抽样的重要性。
问题又来了,调查的时候,没有人关心笔者的忠告,但当撰写论文时就无法避免谈及了。
有小伙伴曾拿着自己写的论文来问笔者的建议。
小伙伴是个实诚人,承认自己懒,调查时就严重违背了随机抽样的原则,但是跟毛主席保证,调查内容上都没有造假。
如今写出论文投稿,由于心虚,就不写调查对象是怎么抽样而来的。审稿专家就问一句:抽样调查的质量如何?于是TA的心就更虚了。
看在不造假的份上,本人也无奈的跟TA说:第一步还是要把“随机”“抽样”等字眼放上去,否则绝对过不了关。另一方面,我们首先就假装这些人住到一起来就是很“随机”的行为,俗称叫“缘分”。
那么说到这份上了,心里是不是就好受一点了呢?
然后的支招是最为关键的,要用数据分析的结果来证实调查对象有没有代表性。
没有随机抽样的也可能同样实现了随机化的目的了呢?
四
所谓的代表性,就是调查到的这一小撮人群的基本组成,和原来抽样框里的人群整体,甚至整个地区的人群状况相一致。这样的话,根据概率论原理,从这一小撮人群中得到的结果可以供全人群参考。
那么怎么样做好“事后诸葛亮”,证实有代表性呢?
最常见的是要达到性别构成和年龄相一致,一般使用单因素的分析方法,分别是卡方检验和t检验。
但是年龄作为连续性变量,通常会“统计过敏”,即对统计检验过度敏感,稍微差那么一丁点儿。
一般的解决方案,是尝试着把年龄划分为连续性的几个组,与整体人群的年龄分组相核对,普遍使用卡方检验判定,
P>0.05说明没显著性差异,就有代表性。
一般情况下,2个因素一比对相一致,那么审稿专家也就不会多说什么了。
接下来要不要比对其它影响因素呢?比如健身时长、吃不吃中饭、经济状况等。
记得还是先别增加,也不能扔掉。
接下来,别忘了系上红领巾,沉迷于学习,就越来越明白为什么说统计是个Game。
本文是春晓医生参与
肿瘤登记项目的心得体会,所有文字仅代表个人观点,用于分享交流。
欢迎参与和关注本项目的同行留言,您的想法和建议,将有助于工作的开展。
微信公众号:瘤生机