在线人数
1496
Tax100会员
32552
搜索
本版
帖子
用户
注册
登录
帐号
自动登录
找回密码
密码
登录
立即注册
只需一步,快速开始
设为首页
收藏本站
税百:专业税务资讯
国际税收讲解
各种证件
搜索
本版
帖子
用户
x
搜索
Tax100 税百
»
论坛
›
资讯答疑
›
大家聊税
›
【数据分析】14个数据分析项目,数据源全部公开!
12366甬税有声|实际结算金额与签订合同所载金额不一致的情况下
中华人民共和国国民经济和社会发展第十三个五年规划纲要(2016-2
哪些渠道可以办理2023个税年度汇算?需要提交哪些资料?一篇文章
河北省第十三届人民代表大会常务委员会第133号|河北省退役军人保
国务院办公厅印发《重点省份分类加强政府投资项目管理办法(试行
领证过年!这3项证书正在发放
【全网最全】31个省市!残保金政策汇编及申
全网最全|2022年失业保险稳岗补贴政策汇总
2021年个税汇算容易出现哪些错误?税务总局
【全网最全】历史上最高规模退税减税!2022
查看:
662
|
回复:
0
【数据分析】14个数据分析项目,数据源全部公开!
[复制链接]
李威03
李威03
当前离线
积分
36336
2万
主题
3万
帖子
3万
积分
专家团队
积分
36336
发消息
2020-11-4 03:51:06
|
显示全部楼层
|
阅读模式
传递财税信息
交流财税理念
延伸管控思维
对于那些对数据、数据分析感兴趣的人,提供一份可以利用业余时间完成的数据分析项目清单,一共14个!
项目分为三种类型:
可视化项目
探索性数据分析(EDA)项目
预测建模
可视化项目
最容易上手的就是数据可视化, 以下3个数据集可以用于创建一些有意思的的可视化效果并加到你的简历中。
1. 新冠病毒可视化
学习如何使用Plotly构建动态可视化数据,展示冠状病毒是如何在全球范围内传播的。Plotly很好用,它可以做动态可视化,
好看且操作简单。
难易程度:
?
数据集:
https://www.kaggle.com/sudalairajkumar/novel-corona-virus-2019-dataset
教程:
https://towardsdatascience.com/visualizing-the-coronavirus-pandemic-with-choropleth-maps-7f30fccaecf5
2. 澳洲大火数据可视化
2019-2020年的丛林大火季,也称为黑色夏天,由2019年6月开始的几场极端野火组成的。据维基百科统计,这场大火烧毁了约1,860万公顷的土地和5,900多座建筑物。
这是一个有趣的项目,可以利用Plotly或Matplotlib数据可视化工具来可视化野火的规模和对地理的影响。
难易程度:
?
数据集:
https://www.kaggle.com/carlosparadis/fires-from-space-australia-and-new-zeland
3. 地表温度可视化
你是否怀疑过全球变暖的观点?创建一些数据可视化效果,显示地球表面温度如何随时间变化,并可以通过创建折线图或其他动画的Choropleth贴图来实现!也可以创建一个预测模型来预测未来五十年内地球的温度。
难易程度:
??
数据集:
https://www.kaggle.com/berkeleyearth/climate-change-earth-surface-temperature-data/kernels
探索性数据分析项目
探索性数据分析(EDA),也称为
数据挖掘
,意思是数据分析过程中使用了多种技术来更好理解数据。
1. 纽约Airbnb数据挖掘
自2008年以来,Airbnb使游客和房东出行更方便,提出更多个性化的体验世界的方式。该数据集包含有关2019年纽约出租的信息以及包含其地理信息,价格,评论数量等。
可以分析的一些角度如下:
哪些区域生意最好,为什么?
哪些区域的流量比其他区域大,为什么?
价格,评论数量和预订天数之间是否存在一些关系?
难易程度:
???
数据集:
https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data
2. 哪些因素与员工离职和绩效有关
IBM公开了一个综合数据集,可以使用它来了解各种因素如何影响员工的流失率和满意度。一些变量包括教育程度,工作相关性,绩效评估和工作生活平衡程度等。
分析此数据集,找到任何确实影响员工满意度的变量,另外,还可以看看是否可以对变量进行重要程度排名。
难易程度:
?
数据集:
https://www.kaggle.com/pavansubhasht/ibm-hr-analytics-attrition-dataset
3. 世界大学排名
你认为你的国家拥有世界上最好的大学吗?成为“最好”大学的衡量标准是什么?该数据集包含三个全球大学排名方式。使用此数据,你是否可以回答以下问题:
顶尖的大学都在哪些国家?
决定世界排名的主要因素是什么?
难易程度:
?
数据集:
https://www.kaggle.com/mylesoneill/world-university-rankings
4. 饮酒与在校表现
喝酒会影响学生的成绩吗?如果不会,那有什么别的影响吗?这个数据是从中学数学和葡萄牙语课程的学生进行的一项调查中获得的。它包含几个变量,例如饮酒量,家庭人数,参与课外活动。
利用这些数据,挖掘学校成绩与各种因素之间的关系。另外,看看是否可以根据其他变量来预测学生的成绩!
难易程度:
?
数据集:
https://www.kaggle.com/uciml/student-alcohol-consumption
5. 宠物小精灵数据挖掘
对所有游戏玩家来说,这是一个包含来自七代802个 Pokemon的信息数据集。试着回答以下几个问题!
哪一代宠物小精灵最强?哪代最弱?
哪种类型神奇宝贝最强?哪种最弱?
能否建立分类器来识别神奇宝贝?
身体特征与力量状态(进攻,防守,速度等)之间是否有相关性?
难易程度:
?
数据集:
https://www.kaggle.com/rounakbanik/pokemon
6. 探索影响预期寿命的因素
世卫组织建立了一段时间内所有国家健康状况的数据集,其中包括预期寿命,成人死亡率等方面的统计数据。使用此数据集,探索各种变量之间的关系,预测对预期寿命的最大影响因素是什么?
请尝试回答以下问题:
最初选择的各种预测因素是否真的影响预期寿命?实际影响预期寿命的预测变量有哪些?
预期寿命值低于(<65)的国家是否应该增加其医疗保健支出以改善其平均寿命?
婴儿和成人死亡率如何影响预期寿命?
预期寿命与饮食习惯,生活方式,运动,吸烟,饮酒等是正相关还是负相关?
是否接受教育对人类寿命有何影响?
预期寿命与饮酒是正相关还是负相关?
人口稠密的国家的预期寿命是否有降低的趋势?
免疫覆盖率对预期寿命有什么影响?
难易程度:
?
数据集:
https://www.kaggle.com/kumarajarshi/life-expectancy-who
预测模型
1. 能源消耗的时间序列预测
该数据集由美国区域传输组织PJM网站上的功耗数据组成,使用此数据集,查看是否可以构建时间序列模型来预测能耗。除此之外,还可以查看是否可以找到一天中每个小时的趋势,假日用电量以及长期趋势!
难易程度:
????
数据集:
https://www.kaggle.com/robikscube/hourly-energy-consumption
2. 贷款预测
该数据集取自Analytics Vidhya,包括 615行和13列有关已批准和尚未批准的历史贷款信息。你是否可以创建一个模型来预测贷款是否会获批。
难易程度:
?
数据集:
https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/
3. 二手车价格计算器
Craigslist是全球最大的二手车经销商,该数据集由Craigslist的抓取数据组成,每隔几个月更新一次。使用此数据集,查看是否可以创建一个数据集来预测一辆汽车价格是否被高估或低估了。
难易程度:
???
数据集:
https://www.kaggle.com/austinreese/craigslist-carstrucks-data
4. 信用卡欺诈检测
该数据集显示了两天内发生的交易,其中284,807笔交易中有492笔欺诈。数据高度正态分布,欺诈占所有交易的0.172%。学习如何使用不正态的数据集并建立信用卡欺诈检测模型。
难
易程度:
????
数据集:
https://www.kaggle.com/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets
5. 皮肤癌图像检测
通过10,000多张图像来构建神经网络来检测皮肤癌。这绝对是最难的项目,需要有关
神经网络和图像识别
的储备知识。
难易程度:
?????
数据集:
https://www.kaggle.com/kmader/skin-cancer-mnist-ham10000
转自:CPDA数据说
欢迎关注财网关注骆驼!!
在漫长的黑夜里来蓄积自己
等待灵光闪耀的一刹那
破茧而出
抵达生命的黎明
为财税管
拓荒到天亮
相关帖子
•
2000亿元专项再贷款支持煤炭清洁高效利用——金融业“做加法”支持碳减排
•
六个城市开展营商环境创新试点 百余项改革举措利企便民
•
营商环境创新试点:坚持把创新行政管理和服务方式作为重中之重
•
教育部有关负责人就《普通高等学校举办非学历教育管理规定(试行)》答记者问
•
关于《国家税务总局关于纳税信用评价与修复有关事项的公告》的政策解读
•
国常会审议通过“十四五”推进国家政务信息化规划
回复
使用道具
举报
返回列表
浏览过的版块
浙江
江西
安徽
广西
河北
2020税务高考
成功参与Tax100发起的2020税务高考活动
官方链接
中国人大网
中国政府网
发改委
国家税务总局
北京市税务局
天津市税务局
河北省税务局
山西省税务局
内蒙古税务局
辽宁省税务局
吉林省税务局
黑龙江税务局
上海市税务局
江苏省税务局
浙江省税务局
安徽省税务局
福建省税务局
山东省税务局
江西省税务局
河南省税务局
湖北省税务局
湖南省税务局
广东省税务局
广西税务总局
海南省税务局
重庆市税务局
四川省税务局
贵州省税务局
云南省税务局
西藏税务总局
甘肃省税务局
陕西省税务局
青海省税务局
宁夏税务总局
新疆税务总局
大连市税务局
宁波市税务局
厦门市税务局
青岛市税务局
深圳市税务局
友情链接
51社保
信用卡申请
Copyright © 2001-2013
Comsenz Inc.
Powered by
Discuz!
X3.4
京公网安备 11010802035448号
(
京ICP备19053597号-1,电话18600416813,邮箱1479971814@qq.com
)
了解
Tax100
创始人胡万军
优化与建议
隐私政策
快速回复
返回列表
返回顶部