中国军团称霸KDD：华人博士斩获最佳论文，清华北大中科大等上榜

　　乾明鱼羊栗子安妮一璞边策发自凹非寺
　　量子位报道公众号 QbitAI

　　又一全球 AI 顶会，尽是中国力量举杯相庆。

　　KDD，数据挖掘领域国际最高级别会议，今年在美国阿拉斯加州举行，最佳论文及三大竞赛等主要奖项，刚刚已全部揭晓。

　　今年，中国面孔星光璀璨。康奈尔大学华人博士 Dong Kun 以一作身份斩获研究赛道最佳论文，初创公司奖项、KDD CUP 三大赛事，也基本被中国公司包揽。

　　详情传送如下：

　　双盲评审第一年，15% 接收率

　　KDD，国际数据挖掘与知识发现大会，全称：ACM SIGKDD Conference on Knowledge Discovery and Data Mining，是数据挖掘领域国际最高级别会议。

　　自 1995 年以来，KDD 大会连续举办了二十余届，每年的接收率不超过 20%，今年的接收率不到 15%。

　　值得一提的是，今年也是 KDD 采用双盲评审的第一年。

　　依然分为研究赛道和应用赛道。

　　其中，据已公开消息，KDD 研究赛道共收到 1179 篇投稿，其中111篇被接收为 Oral 论文，63 篇被接收为 Poster 论文，入选率14. 8%。

　　应用赛道收到 700 余篇论文，其中大 45 篇被接收为 Oral 论文，100 篇被接收为 Poster 论文，接收率20. 7%。

　　相较而言，KDD 2018 年研究赛道接收 181 篇，接收率为 18.4%，应用赛道接受 112 篇，接收率22. 5%。

　　强调论文可复现

　　而且最重要的是，KDD 今年还在投稿通知中特别强调——可复现性——且规定该项会作为最佳论文评选资格，论文需要额外提交内容展示可复现内容。

　　包括实验方法、经验评估和结果，也鼓励在论文中公开研究代码和数据，尽可能完整地描述论文中使用的算法和资源。

　　于是，KDD 2019 也成为了备受关注的一届。

　　来看具体奖项都被哪些团队捧走了：

　　研究赛道最佳论文

　　Network Density of States（态网络密度）

　　https://arxiv.org/pdf/1905.09758.pdf

　　论文来自康奈尔大学。第一作者是 Dong Kun，康奈尔大学应用数学专业博士生，硕士毕业于 UCLA。

　　其他作者还有康奈尔大学计算机系助理教授 Austin Reilley Benson 和康奈尔计算机系副教授 David Bindel，他也是 Dong Kun 的博士生导师。

　　谱分析将图结构与相关矩阵的特征值和特征向量联系起来。许多谱图理论直接来自谱几何，通过相关微分算子的谱来研究可微分流形。但是从谱几何到谱图的转换主要集中在仅涉及少数极端特征值及其相关特征值的结果上。

　　与几何学不同，通过特征值的整体分布（谱密度）对图的研究主要局限于简单的随机图模型。现实世界图谱的内部仍然在很大程度上难以计算和解释，尚未被探索研究。

　　在本文中，作者深入研究了真实世界图谱的谱密度。我们借用了凝聚态物理中的研究工具能态密度，并添加了新的适应性来处理常见图形图案的谱特征。所得到的方法是高效的，论文中已经通过计算单个计算节点上具有超过十亿个边缘的图的谱密度说明了这一点。

　　除了提供视觉上引人注目的图形指纹之外，本文还展示了谱密度的估计如何推动许多常见中心度量的计算，并使用谱密度来估计有关图结构的有意义信息，这些信息无法只从极值本征对中推断得出。

　　研究赛道第二名论文

　　Optimizing Impression Counts for Outdoor Advertising

　　https://dl.acm.org/citation.cfm?doid=3292500.3330829

　　这项研究解决的，是关于户外广告如何投放才最划算的问题，作者来自墨尔本皇家理工大学、新加坡管理大学、武汉大学和华为。

　　具体的问题是该团队首次提出的，称之为户外广告印象数（Impression Counts for Outdoor Advertising，ICOA）。

　　马路边的广告那么多，但能让你有印象的很少，大部分都忘得无影无踪，因此，只要广告在你脑海中留下印象，许多广告主的目的就达到了，这项研究也就是关于如何让更多人留下更深刻印象的。

　　由于移动互联网的发达，不管你用什么交通方式，开车也好，骑摩托车、自行车也好，你每次出门的轨迹都可以被记录下来，因此研究者们找到了出行轨迹数据库T。在此之外，还有给定的广告牌数据库U和广告主的投放预算B。

　　因此，概括地说，户外广告印象数是这样一个问题：

　　广告牌和预算就那么多，路人们就那么走，在这些给定的情况下，如何提升给路人们留下的总印象，让钱花的最值呢？

　　这里要解决两个问题：

每块广告应该让一个路人看到几次；
如何布局广告牌的摆放，让更多路人在出行轨迹上刚好看到最佳次数。

　　第一个问题此前有研究解决了，是一个S形函数，随着广告重复次数增加，给路人留下的印象越来越深刻，之后简单重复就没用了，再多就只有副作用了。

　　而第二个问题，广告牌分布的问题需要用算法解决。研究团队发现直接用贪心算法是不行的，于是提出了基于切线的算法计算子模块函数，为了提高效率，设计了θ终止方法和渐进式上限估计方法进行优化。

　　最后，研究团队在用纽约和洛杉矶两个城市的真实轨迹和广告牌数据集进行实验后，验证这项研究中提出的方法是有效的。

　　应用赛道最佳论文

　　获得应用赛道最佳论文的是Actions Speak Louder then Goals：Valuing Player Actions in Soccer（行动胜于目标：重视足球中球员的行动）：

　　https://arxiv.org/pdf/1802.07127.pdf

　　论文的作者包括，来自比利时鲁汶大学的 Tom Decroos，来自 SciSports 公司的 Lotte Bransean 和 Jesse Davis，以及比利时鲁汶大学的 Jesse Davis。

　　评估足球运动员在比赛中的个人行为表现对比赛结果的影响，是球员招募过程中的考察重点。然而，大多数传统指标在解决此任务时都不尽如人意，因为它们要么专注于单独的镜头画面和目标行为，要么不考虑球员做出某一动作的环境背景。

　　这篇论文主要介绍了：（1）一种用于描述球场上各个球员动作的新语言，SPADL；（2）一种根据球员表现对比赛结果的影响来评估球员动作的新框架，VAEP，同时考虑到动作发生时的背景。

　　通过汇总球员的动作价值，就可以量化他们对球队整体进攻和防守的贡献。

　　这项研究的亮点在在于考虑了通常都会被忽略的动作背景信息，研究团队在 2016/2017 和 2017/2018 赛季的欧洲顶级赛事中用该方法收集了大量的用例。

梅西果然自成一类

　　应用赛道第二名论文

　　这是一项用可穿戴设备来检测认知功能障碍 (可能是痴呆前兆) 的研究，由苹果牵头。

　　Developing Measures of Cognitive Impairment in the Real World from Consumer-Grade Multimodal Sensor Streams

　　https://dl.acm.org/citation.cfm?doid=3292500.3330690　　

　　可穿戴设备和移动计算设备，如今无处不在，并且在技术上取得了卓越的进步；再加上传感器欧式的多样化，这些进步都给持续监测患者、监测他们的日常活动，提供了可能。

　　有这样丰富的纵向信息 (Longitudinal Informationn) 可挖掘，就能为认知功能障碍来分析心理学和行为学上的特征，并为及时且经济地检测轻度认知功能障碍 (MCI) 提供新的途径。

　　MCI，就是介于正常认知与痴呆之间的状态。

　　这项研究提出了一个平台，用来远程、不侵犯地监测认知功能障碍的相关症状，只依靠几个消费机的智能设备。

　　团队展示了，这个平台是怎样在“Lilly 探索性数字评估研究”里面，收集了 16TB 的数据，支持了为期 12 周的可行性研究：监测了 31 位有认知功能障碍的患者，和 82 位没有认知功能障碍的、生活状态自由的人类。

　　研究人员还说明了，严谨的数据统一 (Data Unification) 、时间对齐 (Time-Alignment) 以及插补技术 (Imputation) ，是怎样处理现实中固有的数据缺失，并最终展现了这样的数据在分辨症状中发挥的作用。

　　时间检验奖

　　今年的时间检验奖（test of time award）来自 CMU 和 Nielsen BuzzMetrics，论文为：

　　Cost-effective outbreak detection in networks

　　https://www.cs.cmu.edu/~jure/pubs/detect-kdd07.pdf

　　之所以被评为这个奖，还是因为距离这篇论文在 2007 年首次发出已经过去了 12 年，当时，CMU 的 Jure Leskovec、Andreas Krause、Carlos Guestrin、Christos Faloutsos、Jeanne VanBriesen 和 Nielsen BuzzMetrics 的 Natalie Glance6 人因为这篇文章获得了最佳学生论文。

　　在这篇论文中，研究人员证明了，很多现实生活中爆发检测（比如检测可能性、检测受影响人群等）表现出“子模块”的特性。

　　研究人员利用子模块开发出一种有效的算法，名为CELF算法，来优化贪心算法(Greedy Algorithm)的效率。其算法如下：