南开21秋学期《数据科学导论》在线作业答案

(单选题)1: 根据映射关系的不同可以分为线性回归和()。
A: 对数回归
B: 非线性回归
C: 逻辑回归
D: 多元回归

(单选题)2: 在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。
A: 减小，减小
B: 减小，增大
C: 增大，减小
D: 增大，增大

(单选题)3: 我们需要对已生成的树()进行剪枝,将树变得简单,从而使它具有更好的泛化能力。
A: 自上而下
B: 自下而上
C: 自左而右
D: 自右而左

(单选题)4: 对于k近邻法,下列说法错误的是()。
A: 不具有显式的学习过程
B: 适用于多分类任务
C: k值越大，分类效果越好
D: 通常采用多数表决的分类决策规则

(单选题)5: 在回归分析中,自变量为(),因变量为()。
A: 离散型变量，离散型变量
B: 连续型变量，离散型变量
C: 离散型变量，连续型变量
D: 连续型变量，连续型变量

(单选题)6: 聚类是一种()。
A: 有监督学习
B: 无监督学习
C: 强化学习
D: 半监督学习

(单选题)7: 考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含()
A: 1,2,3,4
B: 1,2,3,5
C: 1,2,4,5
D: 1,3,4,5

(单选题)8: 设X={1,2,3}是频繁项集,则可由X产生()个关联规则。
A: 4
B: 5
C: 6
D: 7

(单选题)9: 以下哪个不是处理缺失值的方法()
A: 删除记录
B: 按照一定原则补充
C: 不处理
D: 随意填写

(单选题)10: 在一元线性回归中,通过最小二乘法求得的直线叫做回归直线或()。
A: 最优回归线
B: 最优分布线
C: 最优预测线
D: 最佳分布线

(单选题)11: 维克托?迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘( )
A: K-means
B: Bayes Network
C: C4.5
D: Apriori

(单选题)12: 为了解决任何复杂的分类问题,使用的感知机结构应至少包含()个隐含层。
A: 1
B: 2
C: 3
D: 4

(单选题)13: 下列两个变量之间的关系中,哪个是函数关系()。
A: 人的性别和他的身高
B: 人的工资与年龄
C: 正方形的面积和边长
D: 温度与湿度

(单选题)14: K-means聚类适用的数据类型是()。
A: 数值型数据
B: 字符型数据
C: 语音数据
D: 所有数据

(单选题)15: 单层感知机拥有()层功能神经元。
A: 一
B: 二
C: 三
D: 四

(单选题)16: 在有统计学意义的前提下,标准化偏回归系数的绝对值越大,说明相应的自变量对y的作用()。
A: 越小
B: 越大
C: 无关
D: 不确定

(单选题)17: 某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。
A: 产量每增加一台，单位成本增加100元
B: 产量每增加一台，单位成本减少1.2元
C: 产量每增加一台，单位成本平均减少1.2元
D: 产量每增加一台，单位平均增加100元

(单选题)18: 下面不是分类的常用方法的有()
A: K近邻法
B: 朴素贝叶斯
C: 决策树
D: 条件随机场

(单选题)19: 具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。
A: 1,线性
B: 2,线性
C: 1,非线性
D: 2,非线性

(单选题)20: 数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()
A: 异常值
B: 缺失值
C: 不一致的值
D: 重复值

(多选题)21: 相关性的分类,按照相关的方向可以分为()。
A: 正相关
B: 负相关
C: 左相关
D: 右相关

(多选题)22: 系统日志收集的基本特征有()
A: 高可用性
B: 高可靠性
C: 可扩展性
D: 高效率

(多选题)23: 聚类的主要方法有()。
A: 划分聚类
B: 层次聚类
C: 密度聚类
D: 距离聚类

(多选题)24: K-means聚类中K值选取的方法是()。
A: 密度分类法
B: 手肘法
C: 大腿法
D: 随机选取

(多选题)25: 多层感知机的学习过程包含()。
A: 信号的正向传播
B: 信号的反向传播
C: 误差的正向传播
D: 误差的反向传播

(多选题)26: 什么情况下结点不用划分()
A: 当前结点所包含的样本全属于同一类别
B: 当前属性集为空，或是所有样本在所有属性上取值相同
C: 当前结点包含的样本集为空
D: 还有子集不能被基本正确分类

(多选题)27: Apriori算法的计算复杂度受()影响。
A: 支持度阈值
B: 项数
C: 事务数
D: 事务平均宽度

(多选题)28: 层次聚类的方法是()
A: 聚合方法
B: 分拆方法
C: 组合方法
D: 比较方法

(多选题)29: k近邻法的基本要素包括()。
A: 距离度量
B: k值的选择
C: 样本大小
D: 分类决策规则

(多选题)30: 距离度量中的距离可以是()
A: 欧式距离
B: 曼哈顿距离
C: Lp距离
D: Minkowski距离

(判断题)31: 贝叶斯定理是概率论中的一个结果,它与随机变量的条件概率以及联合概率分布有关。
A: 对
B: 错

(判断题)32: 在树的结构中,特征越重要,就越远离根节点。
A: 对
B: 错

(判断题)33: 使用SVD方法进行图像压缩不可以保留图像的重要特征。
A: 对
B: 错

(判断题)34: 给定一个数据集,如果存在某个超平面S能够将数据集的部分正实例点和负实例点正确的划分到超平面的两侧,则称该数据集是线性可分数据集。
A: 对
B: 错

(判断题)35: Pearson相关系数是判断特征之间、以及特征和目标变量之间线性相关关系的统计量。
A: 对
B: 错

(判断题)36: 探索性数据分析的特点是研究从原始数据入手,完全以实际数据为依据。
A: 对
B: 错

(判断题)37: BFR聚类簇的坐标可以与空间的坐标保持一致。
A: 对
B: 错

(判断题)38: 决策树还可以表示给定特征条件下类的条件概率分布,这一概率分布定义在特征空间的一个划分上,将特征空间分为互不相交的单元或区域,并在每个单元定义一个类的概率分布就构成了一个条件概率分布
A: 对
B: 错

(判断题)39: 当特征为离散型时,可以使用信息增益作为评价统计量。
A: 对
B: 错

(判断题)40: 随着特征维数的增加,样本间区分度提高。
A: 对
B: 错

(判断题)41: K-means算法采用贪心策略,通过迭代优化来近似求解。
A: 对
B: 错

(判断题)42: 多元线性回归模型中,标准化偏回归系数没有单位。
A: 对
B: 错

(判断题)43: 关联规则可以用枚举的方法产生。
A: 对
B: 错

(判断题)44: 获取数据为数据分析提供了素材和依据,这里的数据只包括直接获取的数据。
A: 对
B: 错

(判断题)45: sigmoid函数属于阶跃函数,是神经网络中常见的激活函数。
A: 对
B: 错

(判断题)46: 当训练集较大的时候,标准BP算法通常会更快的获得更好的解。
A: 对
B: 错

(判断题)47: 交叉表被广泛用于调查研究,商业智能,工程和科学研究
A: 对
B: 错

(判断题)48: K-means聚类是发现给定数据集的K个簇的算法。
A: 对
B: 错

(判断题)49: 给定关联规则A→B,意味着:若A发生,B也会发生。
A: 对
B: 错

(判断题)50: 数据科学具有广泛的应用领域,可以应用在社交网络、职业体育、政治竞选
A: 对
B: 错

(责任编辑：admin)要这答案加QQ：800020900 或加微信：vq800020900 获取

搜索

热门标签:

南开21秋学期《数据科学导论》在线作业答案

提示信息×