
一、单选题(每题2分,共60分)
1. 用户提取大数据分析结果,可以不使用或使用( )等工具。
A、Excel
B、Tableau
C、数据库SQL Server
D、运行在亚马逊EC2弹性MapReduce计算云
2. 以下关于大数据说法中,不正确的是( )。
A、大数据和大数据分析是研究大量的数据的过程中寻找模式,相关性和其他有用的信息,可以帮助企业更好地适应变化,并做出更明智的决策。
B、大数据级别的容量可能是TB、PB、YB、BB、DB
C、大数据通常是万亿或EB,可能收集自传感器、气候信息、公开信息(如杂志 报纸 文章)、或购买交易记录、网络日志、病历、军事监控、视频和图像档案、大型电子商务大数据……
D、大数据中,价值密度通常较低,如果能够合理利用并正确、准确地分析,将会带来很高的价值回报。
3. ( )能够展示单个数据变量的分布情况。
A、二维饼图 B、直方图型柱形图 C、雷达图 D、散点图
4. Robert G.Brown提出指数平滑法,建立在一定的假设为前提下才能有效发挥预测作用。以下前提中,不适用于指数平滑的时间预测方法的是( )。
A、时间序列的态势具有稳定性,时间序列才能被合理地猜测。
B、过去态势会持续到未来,所以将较大的关注放在时间序列中较远的数据上。
C、最近的过去态势,某种程度上会持续到未来,所以将较大的关注放在最近数据上。
D、时间序列的态势具有规则性,时间序列才能被合理地顺势推延。
5. ( )是指两个有联系的指标对比计算而得到的数值,用于反映客观现象之间数量联系程度的综合指标。
A、绝对数 B、相对数 C、众数 D、均值
6. 大数据整理需要经过无数次对海量数据的( )处理才能得到一个简洁结果。
A、收集整理 B、甄别真伪
C、逻辑运算及其分析汇总 D、论证检查
7. 数据的直方图分析属于数据分析法中的( )种分析。
A、推断统计分析工具 B、描述性分析工具
C、数据预测分析工具 D、假设检验分析工具
8. 以下判断数据间关系的相关系数r的若干说法中,不正确的是( )。
A、相关系数r反映变量间线性相关强度,是相关性的度量指标
B、相关系数r取值范围[-1,1]
C、关系数r的正负号能反映相关方向,大于零代表正相关,小于零代表负相关。
D、相关系数r大小可以反映相关程度,r越大则相关性越弱。
9. 线性相关中,一个数值变化时,另一现象会有若干数值与之对应变化,并遵循一定规律,围绕若干数值的上下波动,其原因是影响现象变化的因素的数目( )。
A、为零 B、为一个 C、不止一个 D、上述答案都不对
10. 24小时内血压动态监测仪获得的血压监测数据属于以下数据分析类的()数据。
A、纵向比较 B、横向比较 C、分类比较 D、动态分析
11. 为了分析运动量A和燃脂速度C之间的关系,C会随A的提高而的增高,遵循明显规律,二者属于( )关系。
A、函数相关 B、复相关 C、强相关 D、不相关
12. 时间序列预测,简单地说,是根据事件发展来预测未来发展。关于该方法的说法中,不正确的是它( )。
A、假设事物发展趋势会延伸到未来 B、预测所依据的数据具有不规则性
C、不考虑事物发展之间的因果关系 D、不考虑社会因素和突发事件
13. 相关关系分析的相关程度不包括( )。
A、完全相关 B、不完全相关 C、函数相关 D、不相关
14. 为了广告费A和产品利润B是否存在关系,但从数据表面上无法确定具体关系,并非严格遵循A升高多大比例,B也升高相应程度,二者属于( )关系。
A、比例 B、复数 C、相关 D、函数
15. 一个数据分布的锋度系数为( )时,该数据分布曲线更趋近于平均分布。
A、-1.12 B、-0.13 C、0.02 D、1.2
16. 在数据分布的描述分析上,平均值和众数决定了数据分布是否遵循正态分布分析中,数值测度的( )。
A、分布形状 B、离散程度 C、集中趋势 D、有效性
17. 在数据分布的描述分析上,偏度和峰度决定了数据分布是否遵循正态分布分析中,数值测度的( )。
A、分布形状 B、相关系数 C、集中趋势 D、有效性
18. 大数据分析结果的表现形式中,直观描述3个变量间关系则应该选择( )。
A、散点图 B、气泡图 C、柱形图 D、饼图
19. ( )能有效预测房地产开发中存在的风险,及时提醒规避。
A、相关分析 B、回归分析 C、描述统计分析 D、对比分析
20. 2016年3月,特朗普在阿拉巴马、阿肯色、乔治亚、马萨诸塞、田纳西、佛蒙特和维吉尼亚这7个州得票领先,但在得克萨斯、科罗拉多和俄克拉荷马败给克鲁兹,在明尼苏达州落后于卢比奥,得票率在共和党内处于领先地位,这样的数据分析方法称为( )。
A、横向比较 B、纵向比较 C、分组分析 D、结构分析
21. 为了调研商品毛重量A、运输距离B和运输成本C的关系,分析数据确定三者的具体关系,遵循一定变化规律,三者属于( )关系。
A、函数相关 B、复相关 C、线性相关 D、非线性相关
22. 以下有关PowerPivot的说法中,不正确的是( )。
A、PowerPivot整合多数据源:能从Web服务、文本文件、关系型数据库等任何数据源导入数据;
B、PowerPivot处理海量数据:支持大数据性能卓越,几百万行数据集就如处理几百行一样出色
C、PowerPivot操作简洁, 熟悉Excel就能用PP
D、PP实现任意平台、任意系统的无边界信息共享,并不局限于PP for SharePoint共享和发布上网,还能兼容任何数据库平台的任何共享操作。
23. 2015年末中国大陆总人口137462万人,其中,男性人口70414万人,女性人口67048万人。男女性别比为1.28:1 该“男女性别比”属于( )数据。
A、绝对数 B、相对数 C、众数 D、均值
24. 国际连锁百货零售企业大数据挖掘中,使用( )能找出如何通过交叉销售得到更大收入。
A、回归分析 B、描述性分析 C、抽样调查 D、关联分析
25. 数据的相关分析属于( )类型的数据分析方法。
A、客观描述分析 B、直方图分析 C、推断预测分析 D、抽样分析
26. 指数平滑法中选择加权的阻尼系数需要根据一定经验做范围选择,因此,面对时间数据序列曲线波动较平稳,应选择阻尼系数区间( )更合适。
A、[0.05~0.2] B、[0.3~0.5]
C、[0.6~0.8] D、[0.8~0.95]
27. 以下关于数据准备阶段的数据清洗工作的说法中,存在问题的选项是( )。
A、数据清洗是数据分析前必不可少阶段。
B、数据清洗提供简洁、完整、正确的数据给后续数据加工。
C、数据清洗原则是“多一分则肥,少一分则瘦”。
D、数据清洗的目标是为数据分析提供准确的、数量足够的数据,因此删除不合格的数据、修改错误数据、填充缺失数据是十分必要的。任何数据经过清洗都适合进行数据分析。
28. 数据清洗过程中,去除数据脏点不包括以下选项中的( )的操作。
A、清除不必要的重复数据 B、修改逻辑错误的数据
C、填充缺失数据 D、检测逻辑错误的数据
29. 以下关于回归分析的说法中,不正确的是( )。
A、回归分析基于观测数据,建立变量间适当的依赖关系,以分析数据内在规律,主要用于预报、控制等实际问题。
B、归分析是确定两种及两种以上变量间相互依赖的定量关系的一种统计分析方法
C、回归分析研究现象间是否存在依存关系,并探讨依存关系的相关方向和相关程度。
D、回归分析能分析出多个变量之间的关系,从而分析目标变量未来的发展变化趋势。
30. 某新产品的推广费用和销售额的相关系数=0.213,则该商品的广告和销售的关系属于( )。
A、不相关 B、强正相关 C、低度相关 D、中度相关
二、是非题(每题0.5分,共10分)
1. 大数据分析中,若两个数据变量彼此数量变化相互独立,完全无关,则可以认为其关系为不相关。
2. 非线性相关意味着,当给定某现象一个数值时,另一现象会有若干数值与之对应变化,并遵循一定规律波动。
3. 如果统计一组大数据分布得到锋度系数属于[-1.2~0)区间,则称其分布曲线具有平阔峰,这类数据分布较为平坦,峰度系数越趋近于-1.2,则曲线更矮、更胖(平坦)。
4. 在数据分析方法中,横向比较是通过比较同一事物在不同的时间的状态,在不同时间条件下对事物总体指标的静态比较,对多种相关事物同层次的比较,了解其大小、多少和优劣,以便为决策提供参考。
5. 对大数据做相关分析时,相关系数r大小可以反映相关程度,r=0表示变量间存在函数相关关系。
6. 大数据是一个全新的技术领域,它不同于计算机技术,应用统计学、管理学等理论,可以为各种不同的应用领域的相关数据提供大数据及其分析技术支持。
7. 大数据经过清洗是否可以进行数据分析,需要统计脏点出现的概率,如果超过10%的数据都是脏点就失去分析价值了,过高的错误率使得分析结果有可能出现不可原谅的错误。
8. 数据中重复、错误、空白和遗失等问题需要在初期统一处理,使用自动化的方法进行数据准备不仅效率高,而且自动检索的处理保证的进入分析阶段的数据质量比较高。
9. 回归分析有自变量X和因变量Y之分,其中自变量X是随机变量,因变量Y是普通变量。
10. 一组数据的描述统计结果中,众数代表排序后居于所有数据的数值最中间位置的数值,它不能充分利用已知信息,但衡量时不受异常值影响,适合作为平均值的辅助参数之一,开共同衡量数据分布的集中趋势。
11. 当大数据分布统计曲线的集中程度越高,曲线两侧极端数据就相对更少,集中程度超过正态分布时峰态系数往往高于0。因此数据更集中分布在众数周围时尖削峰分布曲线更高、更瘦,越尖削则峰态系数越大。
12. 数据预测性分析通过分析现有数据间的相关性,探寻数据间存在的联系,并进一步通过建立相关回归模型的方式对未来进行合理的预测,因此,预测性分析属于展望未来的数据分析方式。
13. 曲面图是对所选变量之间相关关系的一种直观描述。
14. 现象之间存在的依存关系,对于某一变量的每一个数值,都有另一变量值与之对应,该关系能用一个数学表达式精确反映出来,这种关系称为相关关系。
15.
大数据的数据集来源可能包括:传感器、气候信息、公开信息(如杂志,报纸,文章)、购买交易记录、网络日志、病历、军事监控、视频和图像档案及大型电子商务,通常是万亿或EB的大小,庞大而复杂,需要专门设计的硬件和软件工具进行处理。
16. 回归分析就是要挖掘出函数关系的数学模型,可以根据回归模型的规律预测未来变化。
17. 调查问卷具体形式可以是纸质调查问卷,后期数字化后存储形成结构化数据表,也可以是数字化的调查问卷,直接保存成电子数据表,无需转化直接用于数据准备、数据分析。
18. 三维曲面图在连续曲面上跨两维显示数值的趋势,图中的颜色并代表数值间的差别。
19. 相关分析主要描述两变量之间线性关系的紧密程度;而回归分析不仅揭示变量X对因变量Y的影响大小,还由回归模型进行预测。
20. 数据收集是数据准备的第一个阶段,包括一手数据的收集,收集范围并不包括二手数据。
三、问答题(每题10分,共30分)
1. 《数据分析报告》结论和建议部分编写的注意事项是什么?
2. 请说明 相关分析 和 回归分析 的相同点和不同点都有什么?
3. 针对大数据如何进行相关分析?
购买专栏解锁剩余0%