|
| 1 | +# 初识 Kaggle |
| 2 | + |
| 3 | +欢迎大家回到 **Machine Learning Diary**~~👏 |
| 4 | + |
| 5 | + |
| 6 | + |
| 7 | +要做数据科学家的朋友一定都听过【kaggle】吧,一些初学者会犹豫要不要参加 Kaggle 竞赛,这并不让人奇怪,他们通常有以下顾虑: |
| 8 | + |
| 9 | +1)我该如何开始? |
| 10 | +2)我要和经验丰富的博士研究者比赛吗? |
| 11 | +3)如果没有获胜的机会,还值得参与吗? |
| 12 | +4)这就是数据科学吗?(如果我在 Kaggle 上表现不好,我在数据科学领域还有希望吗?) |
| 13 | +5)未来我该如何提升我的排名? |
| 14 | + |
| 15 | +今天我们就来亲自感受一下世界上最高大上的数据科学竞技场!入门kaggle,就从今天开始! |
| 16 | + |
| 17 | + |
| 18 | + |
| 19 | +##### 这节课的目的 |
| 20 | + |
| 21 | +1. 注册一个账号(由于被谷歌收购,因此可能需要梯子) |
| 22 | +2. Competition - 学会看一个比赛 |
| 23 | +3. Titanic - 开启人生中第一个kaggle比赛 |
| 24 | +4. Data - 学会在kaggle上找到自己要的数据集(有账号才能下载数据) |
| 25 | +5. Kernels - 学会看别人的代码 |
| 26 | +6. Discussion - 学会看别人的思路 |
| 27 | +7. 摆正心态 |
| 28 | + |
| 29 | + |
| 30 | + |
| 31 | +### 1. 注册账号 |
| 32 | + |
| 33 | +对英语的要求不高,对梯子有要求,自行解决。 |
| 34 | + |
| 35 | + |
| 36 | + |
| 37 | +### 2. Competition:学会看一个比赛 |
| 38 | + |
| 39 | +在首页的最上面一栏菜单栏【Competitions / Datasets / Kernels / Discussion / Learn / ...】点击【Competitions 】就看到类似下面的排版: |
| 40 | + |
| 41 | + |
| 42 | + |
| 43 | +红色箭头哪里代表比赛的分类【All Categories】,里面有: |
| 44 | + |
| 45 | +- Featured:这些通常是由公司、组织甚至政府赞助的,百万美金奖金池不在话下。 |
| 46 | +- Research:这些是研究方向的竞赛,只有很少或没有奖金。它们也有非传统的提交流程。 |
| 47 | +- Recruitment:这些是由想要招聘数据科学家的公司赞助的。目前仍然相对少见。 |
| 48 | +- Getting Started:这些竞赛的结构和 Featured 竞赛类似,但没有奖金。它们有更简单的数据集、大量教程和滚动的提交窗口让你可以随时输入。 |
| 49 | + |
| 50 | +对于初学者,我们点击【Getting Started】。这个框旁边是【Search】框,可以按自己意愿搜索比赛。 |
| 51 | + |
| 52 | + |
| 53 | + |
| 54 | +### 3. Titanic - 开启人生中第一个kaggle比赛 |
| 55 | + |
| 56 | +可以直接点击界面里出现的【**Titanic: Machine Learning for Disaster**】,也可以搜索出来。总之进入【Titanic】比赛后,我们首先是看一下比赛说明,点击左边红色箭头那一行的最左边的【Overview】就是比赛的说明,会介绍各种比赛信息,等等。同一水平线对应右边右边是蓝色框【Join Competition】,点击之后蓝框变成【Submit Predictions】,恭喜你报名成功!(一般有时候会跳出一个小页面点击I Agree那种协议) |
| 57 | + |
| 58 | + |
| 59 | + |
| 60 | + |
| 61 | + |
| 62 | +### 4. Data - 学会找到数据集 |
| 63 | + |
| 64 | +此时点击左边红色箭头那一行的菜单栏的【Data】,直接往下浏览网页,就看到了Data Description,看数据中有哪些变量,以及每个变量代表着什么信息。继续往下拉能在Data那个框里的右上角看到【Download All】,点击后就能进行数据下载了。 |
| 65 | + |
| 66 | + |
| 67 | + |
| 68 | +### 5. Kernels - 学会看别人的代码 |
| 69 | + |
| 70 | + |
| 71 | + |
| 72 | +大家都会在【Kernels】里分享自己的解题代码,不仅对于解题很有帮助,对于日常的技能学习都很有用,至少我很喜欢逛kernel的。第一次可以随便进去逛逛。 |
| 73 | + |
| 74 | + |
| 75 | + |
| 76 | +### 6. Discussion - 学会看别人的思路 |
| 77 | + |
| 78 | +同样在菜单栏里面的【Discussion】是大家讨论解决思路的地方,不一定是解题的代码,也有散发性的一个观点,或者吐槽比赛比累了比烦了的地方😜 |
| 79 | + |
| 80 | + |
| 81 | + |
| 82 | +### 7. 摆正心态 |
| 83 | + |
| 84 | +Kaggle,数据科学的家园,为竞赛参与者,客户解决方案和招聘求职提供了一个全球性的平台。这是Kaggle的特殊吸引力,它提供的竞赛不仅让你站到不同的高度思考问题,还提供了可观的奖金。 |
| 85 | + |
| 86 | +国内外都有很多像kaggle这样的社区/比赛/网站,比如天池等等。很多大厂都开始流行举办机器学习比赛了,里面有数据,比赛,还有百万美元的巨额奖金,of course👏 |
| 87 | + |
| 88 | +然而,人们总是犹豫到底要不要参加竞赛。其中有以下几个原因: |
| 89 | + |
| 90 | +1. 他们小看了自己的技能,知识和掌握的技术的水平。 |
| 91 | +2. 不管自己一连串技能的水平如何,他们都选择奖金最高的问题。 |
| 92 | +3. 在问题的困难度水平上,他们没有充分发挥出自己的技能水平。 |
| 93 | + |
| 94 | +作为初学者,建议大家抱着玩一玩的心态,别把兴趣磨灭在自我苛刻上,那就太得不偿失了。 |
| 95 | + |
| 96 | + |
| 97 | + |
| 98 | +### 作业 |
| 99 | + |
| 100 | +下载Titanic的数据集,下节课要用的。 |
| 101 | + |
| 102 | + |
| 103 | + |
| 104 | +👩好啦,今天的课程就到这里啦!咱们下次见!~ |
0 commit comments