数据挖掘(作业汇总)
创始人
2025-05-29 00:21:11
0

目录

环境配置

实验1 数据

作业2


环境配置

实验开始前先配置环境

以实验室2023安装的版本为例:

1、安装anaconda:(anaconda自带Python,安装了anaconda就不用再安装Python了)
下载并安装 Anaconda3-2022.10-Windows-x86_64.exe

镜像站下载地址(点击即可)

自己选择安装路径,其他使用默认选项。

(1)在“Advanced Installation Options”中,
勾选“Add Anaconda3 to my PATH environment variable.”(“添加Anaconda至我的环境变量。”)。

(2)勾选“Register Anaconda3 as my default Python 3.9”。

 

2、安装pycharm(在官网安装社区版就够用了)

pycharm官网

下载并安装 pycharm-community-2022.2.4.exe 

3、打开cmd窗口,输入以下命令

conda create -n  DMEv  pip python=3.8

 记住DMEV所在的磁盘路径C:\Users\dell\.conda\envs\DMEV

# 如需删除环境,使用命令

conda remove -n DMEv    --all

 安装要用到的Python库:

activate   DMEv  
pip install numpy==1.20.0 --index-url https://mirrors.aliyun.com/pypi/simple/
pip install matplotlib==3.3.4 --index-url https://mirrors.aliyun.com/pypi/simple/
pip install opencv_python==4.4.0.40 --index-url https://mirrors.aliyun.com/pypi/simple/
pip install scipy==1.6.0 --index-url https://mirrors.aliyun.com/pypi/simple/
pip install scikit-learn==0.24.1 --index-url https://mirrors.aliyun.com/pypi/simple/ 
pip install h5py==2.10.0 --index-url https://mirrors.aliyun.com/pypi/simple/ 
pip install mnist==0.2.2 --index-url https://mirrors.aliyun.com/pypi/simple/ 


4、测试

在Pycharm中创建项目时,DMEV所在的路径下选择python.exe(和上面配置的对应)


在Pycharm中新建项目,配置 interpreter,运行以下代码:(没有报错,则导入成功)

import cv2 as cv
import numpy as np
from sklearn.decomposition import PCA
import mnist
import matplotlib.pyplot as plt 

实验1 数据

一、实验目的

(1)练习和掌握python的基本使用。

(2)理解数据类型、数据质量、数据预处理、相似性和相异性度量的概念

(3)理解各种相似性和相异性度量(测度)及其含义,并且能编程计算。

二、实验内容

1编程实现任意给定两个相同维度的向量之间的欧氏距离计算函数dist_E(x,y)。

输入:两个任意k维向量x和y,其中k的值随由数据决定。如x=[3,20,3.5], y=[-3,34,7]。

import numpy as npdef dist_E(vect1, vect2):return np.sqrt(sum(np.power((vect1-vect2),2)))if __name__ == "__main__":x=np.array([3,20,3.5])y=np.array([-3,34,7])dist=dist_E(x,y)print(dist)

2编程实现任意给定两个相同维度的向量之间的夹角余弦相似度计算函数sim=sim_COS(x,y)。输入:两个任意k维向量x和y,其中k的值由数据决定。

import numpy as npdef sim_COS(x, y):num = x.dot(y.T)denom = np.linalg.norm(x) * np.linalg.norm(y)return num / denomif __name__ == "__main__":x=np.array([3, 2, 0, 5, 0, 0, 0, 2, 0, 0])y=np.array([1, 0, 0, 0, 0, 0, 0, 1, 0, 2])sim=sim_COS(x,y)print(sim)

3编程实现任意给定两个相同维度的布尔向量之间的Jaccard系数计算函数dist1=dist_Jaccard(x,y)。

import numpy as npdef sim_Jaccard(vect1, vect2):sim=-1if(vect1.size!=vect2.size):print("length of input vectors must agree")else:ind1=np.logical_and(vect1==1,vect2==1)ind2=np.logical_or(vect1==1,vect2==1)x=vect1[ind1]y=vect2[ind2]n1=np.size(x)n2=np.size(y)sim=n1/n2return simif __name__ == "__main__":x=np.array([1, 0, 0, 0, 0, 0, 1, 0, 0, 0])y=np.array([1, 0, 0, 0, 0, 0, 0, 0, 0, 1])dist=sim_Jaccard(x,y)print(dist)

4编程实现任意给定两个相同维度的布尔向量之间的简单匹配系数计算函数dist1=dist_SMC(x,y)。

import numpy as npdef sim_SMC(vect1, vect2):sim = -1if (vect1.size != vect2.size):print("length of input vectors must agree")else:ind0 = np.logical_and(vect1 == 0, vect2 == 0)ind1 = np.logical_and(vect1 == 1, vect2 == 1)ind2 = np.logical_or(vect1 == 1, vect2 == 1)x = vect1[ind1]y = vect1[ind2]z=vect1[ind0]n1 = np.size(x)n2 = np.size(y)n3 = np.size(z)sim = (n1+n3) / (n2+n3)return simif __name__ == "__main__":x=np.array([1, 0, 0, 0, 0, 0, 1, 0, 0, 0])y=np.array([1, 0, 0, 0, 0, 0, 0, 0, 0, 1])dist=sim_SMC(x,y)print(dist)

作业2

1.数据的属性已知,数据的类别也已知,这样的数据叫做___________样本

我的答案:训练

2.数据的属性已知,数据的类别未知,这样的数据叫做___________样本

我的答案:测试

3.在最近邻分类算法中,可以通过KD树来加速k近邻的搜索。

我的答案:

4.已知有5个训练样本,分别为

样本1,属性为:[2,0,2]  类别 0

样本2,属性为:[1,5,2]  类别 1

样本3,属性为:[3,2,3]   类别 1

样本4,属性为:[3,0,2]   类别  0

样本5,属性为:[1,0,6]   类别 0

有1个测试样本,属性为:[1,0,2]

(1) 测试样本到5个训练样本(样本1、2、3、4、5)的欧氏距离依次为: ()()()()()。    

我的答案:1、5、3、2、4

(2) K=3,距离测试样本最近的k个训练样本依次为:样本  ()    、样本  ()  、样本 ()     

我的答案:1、4、3

(3)距离最近的k个训练样本类别依次为:类别()、类别()、类别()

我的答案:0、0、1

(4) KNN算法得到的测试样本的类别为:类别 ()

我的答案:0

未完待续

相关内容

热门资讯

五四青年晚会活动方案 五四青年晚会活动方案(精选14篇)  为了确保活动有效开展,我们需要事先制定活动方案,活动方案指的是...
运动会开幕式入场方案 运动会开幕式入场方案  什么是工作方案?  工作方案是对未来要做的重要工作做了最佳安排,并具有较强的...
三八女神节活动策划方案 三八女神节活动策划方案(精选14篇)  为了确保活动能无误进行,通常需要预先制定一份完整的活动方案,...
饭店酒水促销活动方案 饭店酒水促销活动方案  为了确保活动能有条不紊地开展,预先制定活动方案是必不可少的,活动方案是活动的...
新年跨年活动方案   一、活动介绍  (一)活动流程介绍  (二)晚会特色  1.晚会幕布:  2.晚会入场:  3....
开放日活动方案 开放日活动方案(精选18篇)  为确保活动高质量高水平开展,预先制定活动方案是必不可少的,活动方案的...
教师读书活动方案 教师读书活动方案(通用17篇)  为确保事情或工作顺利开展,就常常需要事先准备方案,方案指的是为某一...
酒店圣诞节活动方案 酒店圣诞节活动方案7篇  为了确保工作或事情能有条不紊地开展,通常需要提前准备好一份方案,方案是为某...
五一劳动主题活动方案 五一劳动主题活动方案(精选19篇)  为了确保工作或事情能有条不紊地开展,我们需要事先制定方案,方案...
送教下乡活动方案 送教下乡活动方案  为了确保事情或工作能无误进行,常常需要提前准备一份具体、详细、针对性强的方案,方...
新时代文明实践活动实施方案 新时代文明实践活动实施方案(精选7篇)  为了确保活动顺利进行,常常需要提前进行细致的活动方案准备工...
营销活动方案 营销活动方案模板(精选17篇)  为保证事情或工作高起点、高质量、高水平开展,常常需要提前进行细致的...
幼儿园开学活动方案 幼儿园开学活动方案(精选20篇)  为了确保事情或工作有序有效开展,往往需要预先制定好方案,方案是书...
庆祝元旦活动方案 庆祝元旦活动方案(15篇)  为了确保事情或工作有序有力开展,我们需要事先制定方案,方案一般包括指导...
森林防火宣传活动方案 森林防火宣传活动方案  森林防火就是防止森林火灾的发生和蔓延,即对森林火灾进行预防和补救。预防森林火...
教学活动方案 教学活动方案精选15篇  为确保事情或工作高质量高水平开展,往往需要预先制定好方案,方案是在案前得出...
安全生产月主题活动方案 2021年安全生产月主题活动方案  为了确保活动能有条不紊地开展,常常要根据具体情况预先制定活动方案...
个人能力的提升计划 个人能力的提升计划(精选13篇)  时间流逝得如此之快,成绩已属于过去,新一轮的工作即将来临,此时此...
读书会主题活动方案 读书会主题活动方案(通用12篇)  为了保障活动顺利、圆满进行,就不得不需要事先制定活动方案,活动方...
大学母亲节活动方案 大学母亲节活动方案  为了确保事情或工作有序有效开展,我们需要提前开始方案制定工作,方案一般包括指导...