Becoming a Data Scientist-Data Processing

我认为学习数据科学比较好的方法是刷Kaggle的Kernels,Kaggle上有很多数据科学的竞赛,是初学者学习数据挖掘、机器学习和深度学习等技术非常好的平台,众多大神们也乐意将自己做竞赛的思路和见解发布在Kernels里供大家来观摩学习。我个人会将学习过的Kernels记录下来,我将Jupyter Notebook贴在本文中,本文介绍了成为一名数据科学家的所需要的技能,介绍了用Python处理数据的整个流程

原Kernel在这里,我自己总结的版本在这里,数据集用的是Kaggle中的Pokemon- Weedle’s Cave。数据集中有三个文件可用,第一个包含Pokemon特性(第一列是Pokemon的id)。第二个包含了以前战斗的信息,前两列包含战斗人员的id,第三列包含胜利者的id,第一列中的Pokemon首先进行攻击。该数据集的目标是开发一个机器学习模型,能够预测未来Pokemon战斗的结果。

Jupyter Notebook

Author: Hongyi Guo
Link: https://guohongyi.com/2019/05/13/Becoming_A_Data_Scientist_Data_Processing/
Copyright Notice: All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.