干货 | 数据分析——Kaggle竞赛入门

Kaggle众所周知是从事机器学习和数据分析者的聚集地,今天就让我们迈入这个圣地,揭开它的面纱。

1 kaggle的主页面

kaggle主页面

主页上的菜单栏主要展示了Competitions(竞赛)、Datasets(数据集)、Notebooks(kernel,程序)、Discussion(讨论区)和Courses(相关基础课程)。

这里比较重要的是Competitions(竞赛),我们来看看它!

2 通过帮助文档全面了解下kaggle

最简单的方式就是根据官方文档来了解kaggle了,点击下图所示的地方,就可以进入帮助文档,帮助文档介绍了四个方面

  • 竞赛:包括竞赛类别、竞赛形式、如何组队、如何提交结果

  • 数据集:数据集类型、搜索创建暑数据集以及如何发起一个数据项目等

  • 笔记本(Notebooks):其实就是kernel,类似于python的jupyter notebook。这是重点! 你可以利用kaggle上的免费计算资源哦!

  • API接口:kaggle提供命令行的形式查看竞赛内容,下载和提交竞赛数据

    帮助文档1

帮助文档2

3 Kaggle的竞赛类型

竞赛页面

在这个页面我们可以搜索到所有的竞赛题目。

3.1 根据比赛内容分类

大致可以分为三类:

(1)  数据挖掘

kaggle上大多都是数据挖掘类的竞赛,其便签往往是tabular data

(2)  计算机视觉(CV)

对于CV领域的竞赛,其标题下往往含有  image data或video data的标签,这类竞赛往往不仅仅包含图像分类,还有定位、检测和分割,当然也有视频理解。

图像数据标签

含有ImageData标签竞赛的统计

(3)自然语言处理(NLP)

对于NLP领域的竞赛,其往往含有text data或nlp的标签

含有text data标签的比赛

3.2 根据比赛的级别分类

级别分类

(1) 入门级:Getting started

入门级主要针对刚入门机器学习的初学者,是kaggle里最简单的比赛,都是永久性的。就好像是kaggle竞赛中的Hello world。在里面也会有很多大神给出的参考答案,有很多思想值得学习。因此是一个鼓励性质的比赛,没有奖品或者积分。

下图就列出了三个经典的入门级比赛:

  • 手写数字识别:这个是CV届深度学习入门的Hello world,用来识别手写数字0~9,其来自美国国家标准与技术研究所,是数据集NIST的缩小版。

  • Titanic: Machine Learning from Disaster :是当年泰坦尼克号邮轮上旅客的真实数据,通过遇难者的基本信息来预测是否生存下来。是一个分类问题

  • 房价预测:这个就是一个简单的回归问题。顾名思义,就是根据房子的基本信息进行房价的预测。

    三个经典的入门级比赛

(2) 进阶级:Playground

Playground,顾名思义,一个广场,提供大家玩的。主要面向打过初级比赛后,想要尝试增加难度的新手。这种比赛后面通常会标有Kowledge(经验)、Kudos(荣誉)和少量奖金,因此一些示例比赛如:

image.png

  • 猫狗分类

  • 叶片分类

  • 纽约出租车行驶时间预测

(3) 高级:Featured

Featured,即重要比赛或者高级比赛。通常带有商业目的,难度较大,需要有深厚的机器学习功底。

高级比赛

重点是:高级比赛是有赏金的!有的奖池子高达100万美元!当然要获得奖金必须位列前几名,拿刚刚结束的Two Sigma: Using News to Predict Stock Movements这个比赛为例,总奖金高达10万美金,第一名可以分的2.5万美元,第二名2万美元,直到第七名是1万美元。而且每个人都可以参与哦!

奖金分配示例

当然没有获得奖金的也有 ️金牌、 银牌和 铜牌之分,一般都是多个,如果参加比赛的队伍有两千多个,通常位列200左右也都可以获得铜牌。

排行榜中的奖牌

(4)研究级别:Research

与高级比赛相比研究类比赛更具实验性,而且通常没有奖金和分数,但是其为解决某些竞争较弱的特定领域提供了解决方案。

一些举例:

  • 谷歌地标检索挑战 - 给定一张图片,你能在数据集中找到所有相同的地标吗?

  • 右鲸识别 - 在航拍照片中识别濒临灭绝的右鲸

  • 大规模分级文本分类- 将维基百科文档分为大约300000个类别之一

(5) 招聘型:Recruitment

在招聘竞赛中,个人将为公司策划的挑战建立机器学习模型。在比赛结束时,感兴趣的参与者可以上传他们的简历供主持人考虑。奖品是(可能)举办比赛的公司或组织的工作面试。

举例比赛:

  • 沃尔玛招聘 - 商店销售预测

  • 爱彼迎招聘 - 新用户预定预测

(6) 年度比赛:Annual

虽然本身不是严格的竞争类型,但Kaggle保持着每年两次的竞争传统。

第一个是三月机器学习比赛,自2014年以来每年都在美国大学篮球锦标赛上进行。

第二个是圣诞老人主题优化竞赛,每年圣诞节前后举办一次。

(7) 限制参与赛:Limited Participation

Kaggle很少举办有限参与的比赛。这些比赛要么是私人的,要么是邀请的。

有限参与比赛的一个例子是大师级比赛,这是一种私人比赛,只限制可见性和提交给受邀用户,通常是kaggle大师和大师级。 筛选Masters比赛类别,可以看到kaggle一共举办过6次master大赛,最近一次也是五年前了。 Master大赛

4 比赛的形式

(1) 经典形式

简单(或“经典”)的比赛是那些遵循标准kaggle格式的比赛。在简单的竞争中,用户在接受竞争规则后,可以在竞争开始时访问完整的数据集。作为竞争对手,您将下载数据,在本地或内核中构建模型,生成预测文件,然后将预测作为提交文件上传到kaggle上。到目前为止,关于kaggle的大多数比赛都遵循这种格式。

(2) 两阶段形式

在两阶段比赛中,挑战分为两部分:第一阶段和第二阶段,第二阶段建立在第一阶段取得的成绩上。阶段2涉及在阶段开始时发布的新测试数据集。阶段2的合格性通常需要在阶段1中提交。在两阶段比赛中,阅读和理解比赛的具体规则和时间表尤为重要。

(3)kernel-only形式

有些比赛只进行内核比赛或代码比赛。在这些比赛中,所有的参赛作品都是在一个kaggle内核内完成的,不可能直接上传参赛作品。

这些比赛有两个吸引人的特点。竞争更加平衡,因为所有用户都有相同的硬件津贴。而且获胜的模型往往比其他竞争中获胜的模型简单得多,因为它们必须在内核平台施加的计算约束下运行。

仅内核竞争配置了它们对您可以提交的内核的独特约束。这些特性可能受到如下限制:CPU或GPU运行时、使用外部数据的能力以及对Internet的访问。要了解必须遵守的约束条件,请查看特定竞争对手的内核需求。

我来评几句
登录后评论

已发表评论数()

相关站点

+订阅
热门文章