北京语言大学22春《大数据技术与应用》作业1234
试卷总分100 得分100
一、单选题 (共 15 道试题,共 60 分)
1.数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22,28,30,44}的中四分位数为
A.2
B.4
C.6
D.8
2.在pandas中脏数据的典型表示有()
A.np.nan
B.
C.
D.no
3.利用pandas处理数据缺失值时,用于丢弃缺失值的函数为
A.isnull
B.head
C.tail
D.dropna
4.数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22}的中四分位数为
A.2
B.4
C.6
D.8
5.数据集{1,2,3,5,7,8,9}的中位数是
A.3
B.5
C.7
D.4
6.用训练好的LOF实例对数据进行LOF分数计算并排序的语句是
A.from sklean.neighbors import LocalOutlierFactor
B.clf=LocalOutlierFactor(n_neighbors=20)
C.y_pred=clf.fit_predict(X)
D.X_scores = clf.negative_outlier_factor_
7.利用pandas处理数据缺失值时,用于发现重复值的函数为
A.isnull
B.duplicated
C.fillna
D.dropna
8.分类的目标是
A.将一组对象分组以发现它们之间是否存在某种关系
B.从一组预定义的类中查找新对象所属的类
C.提高数据标签利用效率
D.以上都不对
9.项集 S ={ },则项集S称为
A.1项集
B.2项集
C.3项集
D.空集
10.训练随机森林模型实例的语句是
A.from sklearn.tree import DecisionTreetClassifier
B.clf=DecisionTreetClassifier()
C.clf.fit(Xtrain,Ytrain)
D.predictions=clf.predict(Xtest)
11.from sklearn.tree import DecisionTreeClassifiernclf = DecisionTreeClassifier()nclf.fit(Xtrain,Ytrain) npredictions = clf.predict(Xtest)n上面代码第4行中Xtest表示
A.训练数据集
B.测试数据集
C.训练数据的类别标签数组
D.测试数据的类别标签数组
12.数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22,28,30,44}的上四分位数为
A.20
B.22
C.20.5
D.28
13.关联规则 X→Y 表示中Y称为
A.前件
B.后件
C.中间件
D.以上都不对
14.数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22,28,30,44}的四分位差为
A.20
B.22
C.20.5
D.18.5
15.用训练好的LOF实例判断数据是否异常,正常样本用1表示,异常样本用-1表示的语句
A.from sklean.neighbors import LocalOutlierFactor
B.clf=LocalOutlierFactor(n_neighbors=20)
C.y_pred=clf.fit_predict(X)
D.X_scores = clf.negative_outlier_factor_
二、多选题 (共 5 道试题,共 20 分)
16.常用的描述统计分析方法包括
A.对比分析法
B.平均分析法
C.交叉分析法
D.以上都不对
17.关联规则反映的是
A.可分类性
B.可分割性
C.事物之间相互依存性
D.事物之间相互关联性
18.数据集中趋势分析的常用指标包括
A.平均值
B.中位数
C.众数
D.四分位数
19.数据挖掘是适应信息社会从海量数据中提取信息的需要而产生的新学科,也是交叉学科,包括
A.统计学
B.机器学习
C.数据库
D.模式识别
20.常用的分类方法包括
A.朴素贝叶斯分类器
B.决策树
C.KNN
D.以上都不对
三、判断题 (共 5 道试题,共 20 分)
21.分箱法是针对连续的数值型数据中噪声进行处理
22.因为 Bayes 理论能够帮助理解基于概率估计的复杂现况,所以它成为了数据挖掘和概率论的基础
23.数据类型等级最高的是定类数据
24.分类算法的目的是找到数据的最优拟合
25.数据类型等级最低的是定比数据
22春《大数据技术与应用》作业2题目
试卷总分100 得分100
一、单选题 (共 15 道试题,共 60 分)
1.用训练好的LOF实例判断数据是否异常,正常样本用1表示,异常样本用-1表示的语句
A.from sklean.neighbors import LocalOutlierFactor
B.clf=LocalOutlierFactor(n_neighbors=20)
C.y_pred=clf.fit_predict(X)
D.X_scores = clf.negative_outlier_factor_
2.利用pandas处理数据缺失值时,用于填充缺失值的函数为
A.isnull
B.head
C.fillna
D.dropna
3.决策树生成过程中,以信息增益作为特征选择准则生成决策树的算法是
A.ID3
B.C4.5
C.CART
D.以上都不对
4.决策树的生成是一个递归过程,在决策树基本算法中,满足哪种情形,会导致递归过程返回停止
A.特征选择次数超过一定限制
B.当前属性集为空,或所有样本在所有属性上取值相同
C.决策树深度超过2
D.以上都不对
5.from sklearn.tree import DecisionTreeClassifiernclf = DecisionTreeClassifier()nclf.fit(Xtrain,Ytrain) npredictions = clf.predict(Xtest)n上面代码第4行中Xtest表示
A.训练数据集
B.测试数据集
C.训练数据的类别标签数组
D.测试数据的类别标签数组
6.以下不属于大数据分析方法的是()
A.统计分析
B.数学模型
C.机器学习
D.人工智能
7.用训练好的孤立森林isolation forest实例对数据进行异常值检测的语句是
A.from sklean.ensemble import IsolationForest
B.LocalOutlierFactor
C.clf= IsolationForest(max_samples=100,random_state=0)
D.clf.fit(X_train)
E.y_pred=clf.fit_predict(X)
F.y_pred_test = clf.predict(X_test)
8.用训练好的模糊C均值聚类实例对数据进行聚类操作的语句是
A.from fcmeans import FCM
B.fcm=FCM(n_clusters=3)
C.fcm.fit(X)
D.fcm_labels=fcm.u.argmax(axis=1)
9.数据集{1,2,2,2,3,4}的众数是
A.1
B.2
C.3
D.4
10.不包含任何项的项集是指
A.项
B.空集
C.超项集
D.子项集
11.利用Sklearn构建KNN分类器,用于KNN分类器训练的程序为
A.knn.fit(X_train,y_train)
B.y_pred=knn.predict(X_test)
C.knn=KNeighborsClassifier(n_neighbors=k)
D.以上都不对
12.数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22,28,30,44}的中四分位数为
A.2
B.4
C.6
D.8
13.关联规则 X→Y 表示中X称为
A.前件
B.后件
C.中间件
D.以上都不对
14.从软件库中导入模糊C均值聚类算法类的语句是
A.from fcmeans import FCM
B.fcm=FCM(n_clusters=3)
C.fcm.fit(X)
D.fcm_labels=fcm.u.argmax(axis=1)
15.如果一个项集包含K个项,则该项集称为
A.项
B.空集
C.超项集
D.K项集
二、多选题 (共 5 道试题,共 20 分)
16.数据集中趋势分析的常用指标包括
A.平均值
B.中位数
C.众数
D.四分位数
17.以下哪些是数据可视化图表
A.柱状图
B.折线图
C.饼图
D.散点图
18.分箱法包括
A.等深分箱
B.众数分箱
C.等宽分箱
D.以上都不对
19.在数据清洗过程中,用于处理噪声值的方法包括
A.盖帽法
B.分箱法
C.聚类法
D.以上都不对
20.定性数据包括
A.有序数据
B.无序数据
C.定类等级数据
D.定性等级数据
三、判断题 (共 5 道试题,共 20 分)
21.回归算法的目的是寻找决策边界
22.描述性数据分析属于比较高级复杂的数据分析手段
23.盖帽法是将某连续变量均值上下三倍标准差范围外的数值全部删除
24.定性数据包括离散数据和连续数据
25.等宽分箱方法是指每个分箱中样本数量一致
22春《大数据技术与应用》作业3题目
试卷总分100 得分100
一、单选题 (共 15 道试题,共 60 分)
1.项集 S ={尿布,啤酒,牛奶,可乐},则项集S称为
A.1项集
B.2项集
C.3项集
D.4项集
2.决策树生成过程中,以信息增益率作为特征选择准则生成决策树的算法是
A.ID3
B.C4.5
C.CART
D.以上都不对
3.数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22,28,30,44}的中四分位数为
A.2
B.4
C.6
D.8
4.从软件库中导入LOF异常检测算法类的语句是
A.from sklean.neighbors import LocalOutlierFactor
B.clf=LocalOutlierFactor(n_neighbors=20)
C.y_pred=clf.fit_predict(X)
D.X_scores = clf.negative_outlier_factor_
5.数据等级排序T的是
A.定距等级定比等级定类等级定序等级
B.定比等级定序等级定距等级定类等级
C.定比等级定距等级定序等级定类等级
D.定比等级定类等级定序等级定距等级
6.用训练好的LOF实例判断数据是否异常,正常样本用1表示,异常样本用-1表示的语句
A.from sklean.neighbors import LocalOutlierFactor
B.clf=LocalOutlierFactor(n_neighbors=20)
C.y_pred=clf.fit_predict(X)
D.X_scores = clf.negative_outlier_factor_
7.不包含任何项的项集是指
A.项
B.空集
C.超项集
D.子项集
8.从软件库中导入模糊C均值聚类算法类的语句是
A.from fcmeans import FCM
B.fcm=FCM(n_clusters=3)
C.fcm.fit(X)
D.fcm_labels=fcm.u.argmax(axis=1)
9.如果一个项集包含K个项,则该项集称为
A.项
B.空集
C.超项集
D.K项集
10.利用pandas处理数据缺失值时,用于丢弃重复值的函数为
A.drop_duplicates
B.duplicated
C.fillna
D.dropna
11.常用于多变量噪声值(异常值)处理的方法是
A.等深分箱
B.聚类法
C.等宽分箱
D.盖帽法
12.数据集{1,2,3,5,7,9}的中位数是
A.3
B.5
C.7
D.4
13.利用pandas处理数据缺失值时,用于发现缺失值的函数为
A.isnull
B.head
C.tail
D.info
14.关联规则 X→Y 表示中Y称为
A.前件
B.后件
C.中间件
D.以上都不对
15.数据集{1,2,2,2,3,4}的众数是
A.1
B.2
C.3
D.4
二、多选题 (共 5 道试题,共 20 分)
16.聚类分析可以用于
A.顾客分组
B.分类
C.回归
D.找出显著影响
17.关联规则反映的是
A.可分类性
B.可分割性
C.事物之间相互依存性
D.事物之间相互关联性
18.大数据收集的途径包括()
A.互联网
B.移动互联网
C.物联网传感器
D.手动
19.可用于实现数据one-hot编码的方法包括
A.Pandas的head
B.Pandas的get_dummies
C.sklearn.preprocessing.OneHotEncoder方法
D.Pandas的tail
20.决策树的关键点包括
A.采用Bagging框架
B.采用随机特征选择生成每个决策树的训练数据特征子集
C.采用采样数据集的特征子集训练对应决策树
D.以上都不对
三、判断题 (共 5 道试题,共 20 分)
21.定类数据层次比定序数据高
22.数据挖掘的过程都是有统一一致的步骤的
23.定序数据层次比定距数据高
24.下四分位数是指 数据从大到小排列排在第25%位置的数字,即最小的四分位数(下四分位数)
25.上世纪 70 年代,随着数据库管理系统趋于成熟,存储和查询百万兆字节甚至千万亿字节成为可能。而且,数据仓库允许用户从面向事物处理的思维方式向更注重数据分析的方式进行转变。因此,提取复杂深度系信息能力非常强啊
22春《大数据技术与应用》作业4题目
试卷总分100 得分100
一、单选题 (共 15 道试题,共 60 分)
1.用训练好的随机森林对样本进行类别预测的语句是
A.from sklearn.tree import DecisionTreetClassifier
B.clf=DecisionTreetClassifier()
C.clf.fit(Xtrain,Ytrain)
D.predictions=clf.predict(Xtest)
2.以下不是数据可视化工具库的是()
A.pandas
B.matplotlib
C.matlab
D.seaborn
3.数据集{1,2,3,5,7,8,9}的中位数是
A.3
B.5
C.7
D.4
4.下面代码能够提取模糊C均值聚类算法类簇中心特征的语句是
A.from fcmeans import FCM
B.fcm=FCM(n_clusters=4)
C.fcm.fit(X)
D.fcm_centers=fcm.cednters
5.局部异常因子(LOF)算法属于
A.基于统计的异常值检测方法
B.基于密度的异常检测方法
C.基于聚类的异常值检测
D.基于决策树的异常检测
6.逻辑回归中的“逻辑”是指
A.规则
B.Sigmoid函数
C.学者名字
D.以上都不对
7.数据集{1,2,2,2,3,4}的众数是
A.1
B.2
C.3
D.4
8.利用pandas处理数据缺失值时,用于发现缺失值的函数为
A.isnull
B.head
C.tail
D.info
9.利用pandas处理数据缺失值时,用于填充缺失值的函数为
A.isnull
B.head
C.fillna
D.dropna
10.关联规则最基础的元素是
A.项
B.项集
C.超项集
D.子项集
11.from sklearn.neighbors import KNeighborsClassifiernknn = KNeighborsClassifier(n_neighbors=3) n上面代码中可以看出,KNN分类器的k值设置为
A.1
B.2
C.3
D.4
12.决策树生成过程中,以信息增益率作为特征选择准则生成决策树的算法是
A.ID3
B.C4.5
C.CART
D.以上都不对
13.决策树生成过程的停止条件
A.当前结点包含的样本全属于同一类别,无需划分
B.当前属性集为空,或是所有样本在所有属性上取值相同,无法划分
C.当前结点包含的样本集合为空,不能划分
D.以上都不对
14.用训练好的LOF实例判断数据是否异常,正常样本用1表示,异常样本用-1表示的语句
A.from sklean.neighbors import LocalOutlierFactor
B.clf=LocalOutlierFactor(n_neighbors=20)
C.y_pred=clf.fit_predict(X)
D.X_scores = clf.negative_outlier_factor_
15.处理缺失值的方法有删除和()
A.替换
B.复制
C.修改
D.屏蔽
二、多选题 (共 5 道试题,共 20 分)
16.常用的分类方法包括
A.朴素贝叶斯分类器
B.决策树
C.KNN
D.以上都不对
17.定性数据包括
A.有序数据
B.无序数据
C.定类等级数据
D.定性等级数据
18.数据挖掘(Data Mining)则是知识发现(KDD)的核心部分,它指的是从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为
A.规则
B.概念
C.规律
D.模式
19.异常检测的难点
A.不能明确定义何为正常,何为异常,在某些领域正常和异常并没有明确的界限
B.数据本身存在噪声,致使噪声和异常难以区分
C.正常行为并不是一成不变,也会随着时间演化,如正常用户被盗号之后,进行一系列的非法操作
D.难以获取标记数据,没有数据,再好的算法也是无用
20.分箱法包括
A.等深分箱
B.众数分箱
C.等宽分箱
D.以上都不对
三、判断题 (共 5 道试题,共 20 分)
21.众数在一组数据中只有一个
22.因为 Bayes 理论能够帮助理解基于概率估计的复杂现况,所以它成为了数据挖掘和概率论的基础
23.下四分位数是指 数据从大到小排列排在第25%位置的数字,即最小的四分位数(下四分位数)
24.高层次数据无法向低层次转化,会出现F
25.描述性数据分析属于比较高级复杂的数据分析手段