点击上方“萝卜大杂烩”,选择“星标”公众号
超级无敌干货,第一时间送达!!!
相信公众号有很多小伙伴对数据分析都非常感兴趣,今天就分享几个之前看到的 数据分析入门项目
每一个都十分专业,一定会让你大呼过瘾~
>1、Airbnb
Airbnb出租数据分析,是一个入门级数分析项目
如果你还没有完整的做过一个数分项目,不妨试试这个
首先项目通过描述性和探索性分析,对每个变量的单维度、多维度表现进行对比和探索
后续针对特征提出了一些对未来决策有用的假设,用于辅助Airbnb提供更多的服务。
项目中使用了一些比较 常见的统计技术,例如:变量分类、频率分布表、直方图、中心趋势测量等。
也不难,基本学过数学的都会
房间类型的频率分布
价格和最小夜数的中心趋势
平均价格最高的10个小区分布
因为提供的数据中有经纬度字段,而通过经纬度来探索价格、最低住宿时间和房间类型,又是一个比较有效的策略
图形使用 ggplot2 创建,其实也可以使用其他的工具,例如:plotly、seaborn等
基于经纬度的地理分布
>2、Craigslist-EDA
Craigslist二手车销售数据分析,预测汽车价格是否被高估或低估。
数据里面包含了二手车的价格、状况、制造商、经纬度等一共18个字段。
在数据探索中,也是通过 常规的方法,例如:数据预处理、特征工程、特征提取和特征选择
特征变量的分布用到了散点图、密度图、箱型图等等
这种多子图的绘图方式比较好,大家可以多参考这种形式,能节省很多绘图时间
>3、Craigslist-SWEETVIZ
如果说,上面对二手车销售数据分析你不满意,觉得比较复杂
那自动化数据探索工具就很有必要了解一下了
项目中用了 sweetviz 的 analyze 方法,一行代码直接出分析报告,真的很强大了
安装起来也比较简单
!pip install sweetviz
调用的时候直接两行代码完事:
report = sweetviz.analyze([train,'train'],target_feat='Survived')
report.show_html('report.html')
运行的结果是这样的:
在实际中,我们往往要花很多时间去清理脏数据,这个包其实就可以让你在清理数据之前,快速了解一下数据的情况,还是很省时省力的。
>4、收尾
虽然我称之为入门,但是要实际研究下来,没个三五天,可能真的吃不透
但是如果能研究透了,后面遇到类似的项目,也是 一招鲜、吃遍天
好了,这就是今天分享的全部内容,喜欢就点个赞吧~

推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...