
一、单选题(每题2分,共60分。)
1. 用户提取大数据分析结果,可以不使用或使用( )等工具。
A、Excel
B、Tableau
C、数据库SQL Server
D、运行在亚马逊EC2弹性MapReduce计算云
2. 商业数据分析工具可以使用( )。
A、SPSS Statistics
B、Matlab 2014b
C、Excel
D、Style Intelligence
3. 大数据分析的结果常使用饼图表示,饼图能够显示出来( )个数据系列的比例关系。
A、一
B、二
C、三
D、不能确定数量
4. Robert G.Brown提出指数平滑法,建立在一定的假设为前提下才能有效发挥预测作用。以下前提中,不适用于指数平滑的时间预测方法的是( )。
A、时间序列的态势具有稳定性,时间序列才能被合理地猜测。
B、过去态势会持续到未来,所以将较大的关注放在时间序列中较远的数据上。
C、最近的过去态势,某种程度上会持续到未来,所以将较大的关注放在最近数据上。
D、时间序列的态势具有规则性,时间序列才能被合理地顺势推延。
5. ( )是反映客观现象总体在一定时间、地点条件下的总规模、总水平的综合指标,也是数据分析中常用的指标
A、绝对数
B、相对数
C、众数
D、均值
6. 从公司网站上推送给每个员工的职业发展满意度电子调研问卷,经回收形成SQL Server数据库表,回收的电子问卷数据库表属于( )数据。
A、一手 B、二手 C、纸质 D、隐私
7. 在描述分析中,以下参数的说法正确的是( )。
A、指数分析法的众数是指,一组数据中出现次数最多的数值。
B、指数分析法的中位数是指,一组数据中出现次数最多的数值。
C、指数分析法的平均值是指,一组数据中出现次数最多的数值。
D、指数分析法的观测数是指,一组数据中出现次数最多的数值。
8. 为了分析运动量A和燃脂速度C之间的关系,C会随A的提高而的增高,遵循明显规律,二者属于( )关系。
A、函数相关
B、复相关
C、强相关
D、不相关
9. PowerPivot,即数据描述性分析工具,简称PP,关于PP的描述中不正确的是( )
A、在Excel中使用PP无需安装整个软件或学习数据库技术和SQL数据查询技术。
B、EXCEL用PP突破数据分析容量限制,使用 PP 加载项更快速地在桌面上分析大型数据集。
C、PP处理数百万行和几百行的性能相比大不相同,处理数据量和处理速度之间存在着明显的正比关系。
D、PP通过使用其内存中的引擎和高效压缩算法,能以极高的性能处理大型数据集。
10. 所谓抽样分布就是样本统计量的概率分布,抽样分布主要包括几种分布都可以用统计的抽样分布来测定估计其他抽样。以下选项中,抽样分布种类不包括( )。
A、t分布
B、F分布
C、M分布
D、卡方(χ2)分布
11. 分析连锁超市大数据,当出现两变量变化方向一致现象(顾客流量升高则营业额也升高;顾客流量降低,营业额也降低),则该相关关系属于( )。
A、正相关
B、负相关
C、强相关
D、弱相关
12. 交通管理局过去10年的全部路段的流量数据,属于( )的数据来源。
A、一手数据
B、二手数据
C、三手数据
D、四手数据
13. ( )能有效预测房地产开发中存在的风险,及时提醒规避。
A、相关分析
B、回归分析
C、描述统计分析
D、对比分析
14. 在数据分析中,大数据整理需要经过无数次对海量数据收集整理、逻辑运算、分析汇总和论证检查才能得到一个简洁结果,因此“1%错误将导致100%失败”这话意味着( )。
A、1%的数据分析员出现错误,会导致所有数据分析员的失败
B、1个数字影响1个结果;1个结果影响1个决策,1个错误决策能毁掉一个企业
C、基础数据中出现1%左右的错误,会导致分析后的结构出现错误
D、数据分析员在工作中发生1%的逻辑错误是不能接受的,但错误率低于1%就一定可以接受。
15. 保险大数据的挖掘中,使用( )能够分析索赔要求发现潜在的欺诈行为。
A、抽样调查
B、关联分析
C、直方图分析
D、回归分析
16. 以下有关PowerPivot的说法中,不正确的是( )。
A、PowerPivot整合多数据源:能从Web服务、文本文件、关系型数据库等任何数据源导入数据;
B、PowerPivot处理海量数据:支持大数据性能卓越,几百万行数据集就如处理几百行一样出色
C、PowerPivot操作简洁, 熟悉Excel就能用PP
D、PP实现任意平台、任意系统的无边界信息共享,并不局限于PP for SharePoint共享和发布上网,还能兼容任何数据库平台的任何共享操作。
17. 中国2016年的GDP为1.9万亿美元,GDP增长7.3%,那么GDP增长率7.3%属于( )。
A、绝对数
B、相对数
C、众数
D、均值
18. 随机抽样数据使用的随机抽样函数是( )。
A、RAND()
B、AND()
C、ABSTRACT()
D、WITHDRAW()
19. 为了展示静态的数据分析结果,( )能显示事物的构成比例。
A、散点图
B、带数据标记的折线图
C、三维分离式饼图
D、雷达图
20. 假设检验分析属于( )类型的数据分析方法。
A、客观描述分析
B、直方图分析
C、时间序列分析
D、抽样分析
21. 相关分析研究两个或两个以上随机变量之间相互依存关系,那么变量之间相关的关系不包括( )种类。
A、当相关关系中X变动时,Y也相应地发生大致均等的变动,这类直线相关。
B、相关关系中Y随X做不均等变动的非线性相关
C、相关关系中X和Y间符合数学函数关系的复和曲线相关
D、反映两个及以上自变量和一个因变量的相关关系的复相关
22. 大数据分析后描述2个变量间关系使用散点图时,应该使用( )为比对基准。
A、辅助趋势线
B、值轴坐标刻度线
C、类型轴坐标刻度线
D、带数值的数据标签
23. 某公司过去10年的销售数据,从公司历史数据库获得,属于( )的数据来源。
A、一手数据
B、二手数据
C、三手数据
D、四手数据
24. ( )能将各项财务分析所得多组不同的数字或比率指标集中图表上,能一目了然来表现指标变动情形及其好坏趋向。
A、柱形图
B、饼图
C、散点图
D、雷达图
25. 在数据分布的描述分析上,方差和标准差度决定了数据分布是否遵循正态分布分析中,数值测度的( )。
A、分布形状
B、离散程度
C、集中趋势
D、有效性
26. 数据分析直方图客观地展示公务员选拔考试成绩数据分布情况,因此如果数据分布比起正态分布峰度高过多,则体现在直方图上的效果证明( )分析结论。
A、试题泄露
B、考题偏难
C、试题没有能够拉开考生水平层次,无助于选拔人才
D、无法形成有效的参考结果
27. 指数平滑法中选择加权的阻尼系数需要根据一定经验做范围选择,因此,面对时间数据序列曲线波动较平稳,应选择阻尼系数区间( )更合适。
A、[0.05~0.2]
B、[0.3~0.5]
C、[0.6~0.8]
D、[0.8~0.95]
28. 数据分析直方图客观地展示公务员选拔考试成绩数据分布情况,因此如果数据分布比起正态分布略微偏向右侧(成绩高的一侧),峰度略低,那么体现在直方图上的效果证明( )分析结论。
A、试题可能存在泄露
B、考题偏容易
C、试题没有能够拉开考生水平层次,无助于选拔人才
D、试题难易适中,学生成绩真实有效
29. 某新产品的推广费用和销售额的相关系数=0.213,则该商品的广告和销售的关系属于( )。
A、不相关 B、强正相关 C、低度相关 D、中度相关
30. 指数平滑法中选择加权的平滑系数需要根据一定经验,做出范围选择,因此,当面对的时间数据序列曲线波动较大时,应选择平滑系数区间为( )更合适。
A、[0.05~0.2]
B、[0.3~0.5]
C、[0.6~0.8]
D、[0.8~0.95]
二、是非题(每题0.5分,共10分。)
1. 分组可以将复杂的社会现象、经济事件,按量化研究要求区分为性质不同的多种类型,按一定标准分组数据;分组分析通过计算和分析对象的不同特征、不同性质和相关联系,以便进一步研究各组数量特征、组间关系。
2. 二次移动平均法是指,完成移动平均法的数据结果作为基础再进行一次移动平均法,形成二次平均的时间序列。
3. 移动平均法是一种改良的算数平均时间序列预测法,根据时间序列逐期推移,依次计算包含一定间隔期数的平均值,形成平均值时间序列,以反映事物发展趋势或预测未来数据值的一种预测方法。
4. 非线性相关意味着,当给定某现象一个数值时,另一现象会有若干数值与之对应变化,并遵循一定规律波动。
5. 与其他数据表达方式图表不同,股价图中每个数据点都有最高值、最低值两个标记点。
6. 时间序列分析用已知数据序列预测未来值, 重点在考察时间维度上数据间的关联性。
7. 雷达图(Radar Chart)又称蜘蛛网图Spider Chart,能在同一坐标系内展示多指标分析比较情况,由一组坐标和多个同心圆组成。
8. 抽样调查使用均匀分布随机数生成函数RAND可以解决随机抽取数据的问题,但无法解决有规律的抽取问题。
9. 时间序列预测中,移动平均法的间隔越多,结果项数越少,丢失数据将越多。
10. 数据分析的目的是带给人们更多的决策支持信息,取代了数据报表。
11. 现实经济生活中常遇到数据间这种相互依存却无法直接表现的关系,关联规则(Association)揭示数据间的相互关系,而这种关系没有在数据中直接表示出来。相关分析的任务就是发现事物间的关联规则或称相关程度。
12. 分析大数据正相关的标准是,两变量变化方向一致,即一个变量升高、另一变量也升高;一个变量降低,另一个变量也降低。
13. 如果统计一组大数据分布得到锋度系数属于[-1.2~0)区间,则称其分布曲线具有平阔峰,这类数据分布较为平坦,峰度系数越趋近于-1.2,则曲线更矮、更胖(平坦)。
14. 关联分析主要包括相关系数分析和回归分析。
15. 调查问卷具体形式可以是纸质调查问卷,后期数字化后存储形成结构化数据表,也可以是数字化的调查问卷,直接保存成电子数据表,无需转化直接用于数据准备、数据分析。
16. 数据收集是数据准备的第一个阶段,包括一手数据的收集,收集范围并不包括二手数据。
17. 一组数据的描述统计结果中,众数代表排序后居于所有数据的数值最中间位置的数值,它不能充分利用已知信息,但衡量时不受异常值影响,适合作为平均值的辅助参数之一,开共同衡量数据分布的集中趋势。
18. 回归分析就是要挖掘出函数关系的数学模型,可以根据回归模型的规律预测未来变化。
19. 大数据是一个全新的技术领域,它不同于计算机技术,应用统计学、管理学等理论,可以为各种不同的应用领域的相关数据提供大数据及其分析技术支持。
20. 回归分析研究的是随机变量,不分自变量、因变量;相关分析却正相反,建模前首先选择自变量、因变量。
三、问答题(每题15分,共30分。)
1. 大数据不同于其他数据的特点是什么?
2. 纸质调查问卷数字化:排序题的题干是“3、您希望企业的价值取向如何?请按重要性排序:No1.重要( ) No2.重要( ) No3.重要( )”,备选答案包括“A、优胜劣汰 B、客户至上 C、开拓精神 D、团队精神 E、能者上,庸着下”。如何设计数据表中的数据机构能保存大量调查问卷的该题目答案,请设计一个标准的结构化数据存储结构,来记录数字化问卷答案形成excel电子记录?
购买专栏解锁剩余1%