第五届“泰迪杯”数据分析技能赛 经验代码分享
创始人
2024-05-11 05:58:42
0

第五届“泰迪杯”数据分析技能赛 经验/代码分享

品牌:“泰迪杯”数据分析技能赛

组织单位:泰迪杯数据分析技能赛组织委员会、广东泰迪智能科技股份有限公司、广东省工业与应用数学学会、人民邮电出版社、北京泰迪云智信息技术研究院、网宿科技股份有限公司

数据+代码分享:

链接:https://pan.baidu.com/s/1D32jlIgXuSiJWNN-w1ZKqQ?pwd=xx78
提取码:xx78

在这里插入图片描述

(献丑奉上,,求个关注嘛,嘿嘿,拜托拜托~)

比赛时间:

2022-11-12 ~ 2022-11-13 每天早上8:00~晚上20:00

题目展示:

泰迪杯分析赛分AB两题,每题都单独评委评分,可以任选一题做或者两题都做,建议两个题都做。
在这里插入图片描述

在这里插入图片描述

获奖展示:

在这里插入图片描述

在这里插入图片描述

经验总结:

虽然比不上荣获“泰迪杯”的大佬队伍,但是获得两个一等奖也还算阔以,(嘿嘿)以下是我通过这场比赛的感悟总结(我们是进行“老带新”模式,大三带大二参赛)。

1、组队队友选择:

寻找另外两个队友时,最好寻找一男一女搭配,女生最好是文采比较好,有word撰写论文经验最佳,男生最好能基础编程,数据处理、简单可视化操作。

2、分工明确:

作为队长,在比赛一开始阅读完题目后,就需要合理分配任务,比如题目的前一,前二大题是数据处理和可视化,可以分配给男生,构思论文结构然后交代给女生,让她先搭建好论文框架,最后分工明确、层层把关。

3、队内队外勤交流

队内,每做完一题,需要和负责论文撰写的进行明确交流,必要的文字描述和结果截图都需要两人合作交流写在论文。

队外,可以与其他队交流难题,分享做题解决办法,加快做题速度。“互相帮助”。

解题流程和必备知识点技能:

对于解题流程和需要掌握的知识点以及必备技能,我整理了XMind思维导图文件如下:

XMind思维导图文件链接:https://pan.baidu.com/s/1L83550izPkVhy7VHZAmpoQ?pwd=xx78
提取码:xx78

在这里插入图片描述

泰迪杯一般处理流程

数据读取

读取方式

df=pd.read_csv(“df_train_a1.csv”)
df=pd.read_excel(“C:/Users/X/Jupyter_file/B题/附件/附件1.xlsx”,sheet_name=‘安徽省’)
dates = pd.read_csv(‘dates.txt’, names=[‘col1’,‘col2’], header=None)

  • df=pd.read_csv(“df_train_a1.csv”)
  • df=pd.read_excel(“C:/Users/X/Jupyter_file/B题/附件/附件1.xlsx”,sheet_name=‘安徽省’)
  • dates = pd.read_csv(‘dates.txt’, names=[‘col1’,‘col2’], header=None)

读取表格拼接

  • pd.concat([data,data1],axis=1)

  • pd.merge(data,data1,on=‘ID’)

数据处理、分析

数据整体查看

  • df.info()
  • df.isnull().sum()
  • df.describe()

重复值处理

  • df[df[‘MEMBER_NO’].duplicated()]
  • df.drop_duplicates()
  • df.drop_duplicates(subset=[‘A’,‘B’],keep=‘first’,inplace=True)

异常值处理

  • 箱线图展示大概离群值

    • import seaborn as sns
      sns.boxplot(x=data[‘sepal length (cm)’],data=data)
  • 详细显示离群临界点

    • print(np.percentile(df[‘basic_4’],99))
      print(np.percentile(df[‘basic_4’],1))

缺失值处理

  • 删除
  • 均值填充
  • 随机填充
  • 关联填充

各列特征数据展示

数据可视化

plt

pyecharts

tableau

  • 仪表盘数字大屏

特征工程

特征编码

  • sparse矩阵
  • one-hot编码

特征衍生

数据归一化、标准化

特征筛选

  • 删除低方差特征
  • 相关系数热力图
  • 模型的特征重要性展示选择

数据上采样、下采样

特征降维

  • PCA降维、反向随机特征选择

机器学习建模

数据集划分

建模

  • 监督学习

    • 分类

      • 随机森林
      • 决策树
      • KNN
    • 回归

      • 线性回归模型
      • 随机森林
      • 决策树
  • 无监督学习

    • 聚类

      • k-means

训练、预测

模型评估

  • 调参

  • 评估指标

  • 稀疏矩阵

    • 分类

      • 随机森林
      • 决策树
      • KNN
    • 回归

      • 线性回归模型
      • 随机森林
      • 决策树
  • 无监督学习

    • 聚类

      • k-means

训练、预测

模型评估

  • 调参
  • 评估指标
  • 稀疏矩阵

保存模型

相关内容

热门资讯

常用商务英语口语   商务英语是以适应职场生活的语言要求为目的,内容涉及到商务活动的方方面面。下面是小编收集的常用商务...
六年级上册英语第一单元练习题   一、根据要求写单词。  1.dry(反义词)__________________  2.writ...
复活节英文怎么说 复活节英文怎么说?复活节的英语翻译是什么?复活节:Easter;"Easter,anniversar...
2008年北京奥运会主题曲 2008年北京奥运会(第29届夏季奥林匹克运动会),2008年8月8日到2008年8月24日在中华人...
英语道歉信 英语道歉信15篇  在日常生活中,道歉信的使用频率越来越高,通过道歉信,我们可以更好地解释事情发生的...
六年级英语专题训练(连词成句... 六年级英语专题训练(连词成句30题)  1. have,playhouse,many,I,toy,i...
上班迟到情况说明英语   每个人都或多或少的迟到过那么几次,因为各种原因,可能生病,可能因为交通堵车,可能是因为天气冷,有...
小学英语教学论文 小学英语教学论文范文  引导语:英语教育一直都是每个家长所器重的,那么有关小学英语教学论文要怎么写呢...
英语口语学习必看的方法技巧 英语口语学习必看的方法技巧如何才能说流利的英语? 说外语时,我们主要应做到四件事:理解、回答、提问、...
四级英语作文选:Birth ... 四级英语作文范文选:Birth controlSince the Chinese Governmen...
金融专业英语面试自我介绍 金融专业英语面试自我介绍3篇  金融专业的学生面试时,面试官要求用英语做自我介绍该怎么说。下面是小编...
我的李老师走了四年级英语日记... 我的李老师走了四年级英语日记带翻译  我上了五个学期的小学却换了六任老师,李老师是带我们班最长的语文...
小学三年级英语日记带翻译捡玉... 小学三年级英语日记带翻译捡玉米  今天,我和妈妈去外婆家,外婆家有刚剥的`玉米棒上带有玉米籽,好大的...
七年级英语优秀教学设计 七年级英语优秀教学设计  作为一位兢兢业业的人民教师,常常要写一份优秀的教学设计,教学设计是把教学原...
我的英语老师作文 我的英语老师作文(通用21篇)  在日常生活或是工作学习中,大家都有写作文的经历,对作文很是熟悉吧,...
英语老师教学经验总结 英语老师教学经验总结(通用19篇)  总结是指社会团体、企业单位和个人对某一阶段的学习、工作或其完成...
初一英语暑假作业答案 初一英语暑假作业答案  英语练习一(基础训练)第一题1.D2.H3.E4.F5.I6.A7.J8.C...
大学生的英语演讲稿 大学生的英语演讲稿范文(精选10篇)  使用正确的写作思路书写演讲稿会更加事半功倍。在现实社会中,越...
VOA美国之音英语学习网址 VOA美国之音英语学习推荐网址 美国之音网站已经成为语言学习最重要的资源站点,在互联网上还有若干网站...
商务英语期末试卷 Part I Term Translation (20%)Section A: Translate ...