Skip to content

Commit 5f66c24

Browse files
committed
add kaggle intro class
1 parent 22b1d7c commit 5f66c24

File tree

1 file changed

+104
-0
lines changed

1 file changed

+104
-0
lines changed
Lines changed: 104 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,104 @@
1+
# 初识 Kaggle
2+
3+
欢迎大家回到 **Machine Learning Diary**~~👏
4+
5+
![](https://www.analyticsvidhya.com/wp-content/uploads/2015/06/kaggle-logo-transparent-300-850x386.png)
6+
7+
要做数据科学家的朋友一定都听过【kaggle】吧,一些初学者会犹豫要不要参加 Kaggle 竞赛,这并不让人奇怪,他们通常有以下顾虑:
8+
9+
1)我该如何开始?
10+
2)我要和经验丰富的博士研究者比赛吗?
11+
3)如果没有获胜的机会,还值得参与吗?
12+
4)这就是数据科学吗?(如果我在 Kaggle 上表现不好,我在数据科学领域还有希望吗?)
13+
5)未来我该如何提升我的排名?
14+
15+
今天我们就来亲自感受一下世界上最高大上的数据科学竞技场!入门kaggle,就从今天开始!
16+
17+
18+
19+
##### 这节课的目的
20+
21+
1. 注册一个账号(由于被谷歌收购,因此可能需要梯子)
22+
2. Competition - 学会看一个比赛
23+
3. Titanic - 开启人生中第一个kaggle比赛
24+
4. Data - 学会在kaggle上找到自己要的数据集(有账号才能下载数据)
25+
5. Kernels - 学会看别人的代码
26+
6. Discussion - 学会看别人的思路
27+
7. 摆正心态
28+
29+
30+
31+
### 1. 注册账号
32+
33+
对英语的要求不高,对梯子有要求,自行解决。
34+
35+
36+
37+
### 2. Competition:学会看一个比赛
38+
39+
在首页的最上面一栏菜单栏【Competitions / Datasets / Kernels / Discussion / Learn / ...】点击【Competitions 】就看到类似下面的排版:
40+
41+
![](https://elitedatascience.com/wp-content/uploads/2017/07/kaggle-getting-started-competitions.png)
42+
43+
红色箭头哪里代表比赛的分类【All Categories】,里面有:
44+
45+
- Featured:这些通常是由公司、组织甚至政府赞助的,百万美金奖金池不在话下。
46+
- Research:这些是研究方向的竞赛,只有很少或没有奖金。它们也有非传统的提交流程。
47+
- Recruitment:这些是由想要招聘数据科学家的公司赞助的。目前仍然相对少见。
48+
- Getting Started:这些竞赛的结构和 Featured 竞赛类似,但没有奖金。它们有更简单的数据集、大量教程和滚动的提交窗口让你可以随时输入。
49+
50+
对于初学者,我们点击【Getting Started】。这个框旁边是【Search】框,可以按自己意愿搜索比赛。
51+
52+
53+
54+
### 3. Titanic - 开启人生中第一个kaggle比赛
55+
56+
可以直接点击界面里出现的【**Titanic: Machine Learning for Disaster**】,也可以搜索出来。总之进入【Titanic】比赛后,我们首先是看一下比赛说明,点击左边红色箭头那一行的最左边的【Overview】就是比赛的说明,会介绍各种比赛信息,等等。同一水平线对应右边右边是蓝色框【Join Competition】,点击之后蓝框变成【Submit Predictions】,恭喜你报名成功!(一般有时候会跳出一个小页面点击I Agree那种协议)
57+
58+
![](https://elitedatascience.com/wp-content/uploads/2017/07/kaggle-kernels-most-votes.png)
59+
60+
61+
62+
### 4. Data - 学会找到数据集
63+
64+
此时点击左边红色箭头那一行的菜单栏的【Data】,直接往下浏览网页,就看到了Data Description,看数据中有哪些变量,以及每个变量代表着什么信息。继续往下拉能在Data那个框里的右上角看到【Download All】,点击后就能进行数据下载了。
65+
66+
67+
68+
### 5. Kernels - 学会看别人的代码
69+
70+
![](https://elitedatascience.com/wp-content/uploads/2017/07/kaggle-kernels-most-votes.png)
71+
72+
大家都会在【Kernels】里分享自己的解题代码,不仅对于解题很有帮助,对于日常的技能学习都很有用,至少我很喜欢逛kernel的。第一次可以随便进去逛逛。
73+
74+
75+
76+
### 6. Discussion - 学会看别人的思路
77+
78+
同样在菜单栏里面的【Discussion】是大家讨论解决思路的地方,不一定是解题的代码,也有散发性的一个观点,或者吐槽比赛比累了比烦了的地方😜
79+
80+
81+
82+
### 7. 摆正心态
83+
84+
Kaggle,数据科学的家园,为竞赛参与者,客户解决方案和招聘求职提供了一个全球性的平台。这是Kaggle的特殊吸引力,它提供的竞赛不仅让你站到不同的高度思考问题,还提供了可观的奖金。
85+
86+
国内外都有很多像kaggle这样的社区/比赛/网站,比如天池等等。很多大厂都开始流行举办机器学习比赛了,里面有数据,比赛,还有百万美元的巨额奖金,of course👏
87+
88+
然而,人们总是犹豫到底要不要参加竞赛。其中有以下几个原因:
89+
90+
1. 他们小看了自己的技能,知识和掌握的技术的水平。
91+
2. 不管自己一连串技能的水平如何,他们都选择奖金最高的问题。
92+
3. 在问题的困难度水平上,他们没有充分发挥出自己的技能水平。
93+
94+
作为初学者,建议大家抱着玩一玩的心态,别把兴趣磨灭在自我苛刻上,那就太得不偿失了。
95+
96+
97+
98+
### 作业
99+
100+
下载Titanic的数据集,下节课要用的。
101+
102+
103+
104+
👩好啦,今天的课程就到这里啦!咱们下次见!~

0 commit comments

Comments
 (0)