智源“高能对撞粒子分类挑战赛”开启,品鉴宇宙粒子的独特“味道”

PaperWeekly  |   2019-12-18 16:02

来源:PaperWeekly

20191218160223_f80722.jpg

2019 年 11 月,北京智源人工智能研究院联合数据评测平台 biendata,共同发布了粒子碰撞数据集,其中包含数百万条高能对撞中所产生的喷注信息(质量、能量、方向等),以及相关的碰撞事件信息和喷注中粒子的信息。biendata 同步开放了“高能对撞粒子分类挑战赛”(2019 年 11 月-次年 2 月),总奖金为 10 万元。比赛和数据可于下方链接查看,或点击“阅读原文”。 

比赛地址:https://www.biendata.com/competition/jet/

背景

宇宙中大多数物质由原子构成,原子又由原子核和电子组成。其中,电子是基本粒子,但原子核又可分为质子和中子,并可进一步分为夸克和胶子。这些夸克和胶子的相互作用非常强烈,以至于只有通过极高能量的质子对撞才能让它们摆脱束缚。在高能碰撞时可以产生包括夸克和中子在内的大量粒子,向某个方向射出,这些粒子团被称为喷注(jet)。

喷注可以分为:1)胶体喷注,2)轻夸克喷注,3)魅夸克喷注,4)美夸克喷注。由于它们的不同内在特性(如质量和色量子数),不同种类的喷射经历不同的衰变过程,其内部结构也在实验中显示出不同的观测值。

尽管在理论物理模拟中可以很容易地识别出喷注的味道,但目前在实验中没有可靠的方法可以对所测量的真实喷注进行分类。因此,开发一种稳健的算法来识别喷注味道,将让我们可以更直接地比较实验测量和基本粒子理论。

比赛任务

本次比赛提供粒子碰撞数据集,其中包含对撞中产生的喷注信息(质量、能量、方向等),以及相关的碰撞事件信息和喷注中所包含的粒子信息,要求选手根据喷注的性质(如喷注所含的粒子数、喷注能量、喷注质量、喷注方向),以及喷注中所有粒子的特征(方向、质量、能量等)和对应的碰撞事件,把喷注分成四类中的一类。

本次比赛分为简单赛道和复杂赛道,依次进行。简单赛道只要求选手根据喷注属性的数据集进行分类;复杂赛道在此基础上,又加入喷注所含粒子的属性文件和碰撞事件文件,数据的体量和维度剧增,难度也相应加大。简单赛道和复杂赛道的测试集一样,只是提供的数据维度不同。

简单赛道(11 月 30 日至 12 月 25 日)

选手根据喷注的性质(喷注所含的粒子数、喷注能量、喷注质量、喷注方向)进行分类(简单赛道开放时间较短,建议提前报名参赛)。

复杂赛道(12 月 25 日至次年 2 月 15 日)

选手根据喷注的性质、喷注中所有粒子的特征、以及喷注所在的碰撞事件进行分类。

粒子碰撞数据集

本数据集共包含 200 多万条喷注信息,分为 EVENT、JET、PARTICLE 三类文件,三者为上下层级关系,一个碰撞事件(EVENT)会产生若干个喷注(JET),而一个喷注中会包含若干个粒子(PARTICLE)。EVENT 文件是对碰撞事件的描述,JET 文件详细说明了喷注的属性,PARTICLE 文件进一步描述了喷注中所含各个粒子的属性。 

这三类数据的结构可以通过以下方式直观理解:

- Event 1: Event 1的属性 

- - Event 1 中的喷注 1 (jet1)  

- - - 喷注 1 中的粒子 1 数据

- - - 喷注 1 中的粒子 2 数据 

- - - …… 

- Event 2 中的喷注 2 (jet2, event1) 

- - …… 

- …… 

具体而言,在 EVENT 文件中,“event_id”字段是碰撞事件的编号,“number_of_jet_in_this_event”字段表示碰撞事件中产生的喷注数量。

20191218160223_fd18aa.jpg

▲ 图:Event文件样例

在 JET 文件中,“jet_id”字段是喷注的编号,“number_of_jet_in_this_event”字段表示碰撞事件中产生的喷注数量,“jet_px”、“jet_py”、“jet_pz”字段表示喷注的方向,“jet_energy”表示喷注的能量,“jet_mass”表示喷注的质量,“event_id”表示该喷注所在的碰撞事件,“label”表示喷注属于的类别。

20191218160223_ff2391.jpg▲ 图:Jet文件样例

在 PARTICLE 文件中,“Particle_category”字段是粒子的标签号,“particle_px”、“particle_py”、“particle_pz”字段表示粒子的方向,“particle_energy”表示粒子的能量,“Particle_mass”表示粒子的质量,“jet_id”表示该粒子所在的喷注。

20191218160224_03a685.jpg

▲ 图:Particle文件样例

同类研究

自 2016 年开始,物理学界开始尝试将深度学习引入喷注分类任务中。在此过程中可以发现,最新的机器学习技术创新可以相当显著地提升模型性能。 

目前,已有多种机器学习技术已经在相关数据集上得到应用。2017 年,麻省理工学院的研究团队将模拟喷注数据中粒子的密度转化为二维图片,并用卷积神经网络等计算机视觉技术对图片进行分类 [1]。同年,多个团队报道利用喷注衰变产生的树状演变结构,可以采用自然语言处理中的 RNN 及 LSTM 网络,显著提升分类的准确率 [2] [3]。一篇 2019 年发表的论文表明,如果考虑一些物理学家设计的变量作为特征,最高能把胶子-夸克分类的 ROC AUC 数值提升超过 10% 左右,达到 0.899 [4]

相较于其它数据集,智源“粒子碰撞数据集”的喷注数达到 200 多万条,而且细分为四类,并包含具体粒子的详细信息,在数量和颗粒度上达到了较高的水准。

来源:paperweekly PaperWeekly

原文链接:https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247501865&idx=1&sn=3b15601add76d394f2c5a266d4520a00&chksm=96ea17a9a19d9ebfe74b76d91b5b9d0e17b6fa7ce8fa77dc2d0118041f8d5a010362fbe8af3d#rd

版权声明:除非特别注明,本站所载内容来源于互联网、微信公众号等公开渠道,不代表本站观点,仅供参考、交流、公益传播之目的。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。

电话:(010)86409582

邮箱:kejie@scimall.org.cn

相关推荐 换一换