智源学者邓柯提出无指导中文文本分析新方法,获世界华人数学家联盟最佳论文奖银奖

来源:智源研究院,https://mp.weixin.qq.com/s/ptyeazXXRa-8ilH3V-GkCQ

近日,世界华人数学家联盟最佳论文奖于2020世界华人数学家联盟年会期间颁布。智源研究员邓柯作为第一作者的学术论文“On the unsupervised analysis of domain-specific Chinese texts”获“2020世界华人数学家联盟最佳论文奖-银奖”。
另附论文链接:

邓柯
清华大学统计学研究中心副教授,智源研究员
中国现场统计研究会计算统计分会理事长、中国青年统计学家协会副会长、中国人工智能学会智慧医疗专业委员会副主任委员、国际计算统计学会亚太地区分会理事、国际统计学知名杂志Statisca Sinica副主编,并获得“2016科学中国人年度人物”荣誉称号。
研究兴趣包括贝叶斯统计与计算、生物医学统计、人工智能理论与方法等领域,主要研究方向是将统计学理论和方法与生物医学、数字人文、人工智能研究中重要的理论和实际问题相结合,开发适用于弱训练场景、具有良好可解释性的智能模型和算法。一系列论文发表在国际统计学顶级期刊JASA、JRSS-B、Biometrika等,以及顶级综合性期刊PNAS、Nature Communications等。

该论文由邓柯与美国哈佛大学Peter Bol教授、哈佛大学刘军教授和萨福克大学李佳漪副教授共同完成,论文发表于美国科学院院刊PNAS杂志。

图:丘成桐先生(右)和林勇教授(左)给邓柯副教授颁奖

文章提出运用统计学模型和原理进行无指导中文文本分析的新方法——TopWORDS,可对特定领域中文文本进行词语发现和中文分词。此方法还可以结合其他文本分析工具,如词嵌入、主题模型、关联规则挖掘等,可提取文本中的主要特征和信息,是中文文本挖掘领域的重要突破。