中科大张乐:基于人才流动表征的企业竞争力分析

不到现场,照样看最干货的学术报告!

嗨,大家好。这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频——足够干货,足够新鲜!话不多说,快快看过来,希望这些优秀的青年学者、专家杰青的学术报告 ,能让您在业余时间的知识阅读更有价值。


人工智能论坛如今浩如烟海,有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办,百度全力支持,读芯术、paperweekly作为合作自媒体。承办单位为中国科学院大学学生会,协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会。2020年5月30日,第15期“AI未来说·青年学术论坛”大数据线上专场论坛以“线上平台直播+微信社群图文直播”形式行。中科大张乐来报告《基于人才流动表征的企业竞争力分析》。

中科大张乐的报告视频

张乐,2016年本科毕业于大连理工大学,现于中国科学技术大学就读博士学位。主要从事数据挖掘和机器学习相关的研究工作,研究方向包括人才数据挖掘和社交网络分析等。

 

报告内容:在高速发展的商业环境下,企业间的竞争变得越来越激烈,对于企业竞争力分析的应用有着迫切的需求。而人才流动已经成为当下普遍存在的现象,其背后折射着企业之间的竞争关系,本报告将从人才流动的角度介绍一种企业竞争力分析方法。

基于人才流动表征的企业竞争力分析

张乐博士主要就今年发表在WWW2020年的一篇文章进行了分享,包括五个部分:最新工作、预备内容,研究方法,具体实验,报告总结。张乐博士认为,企业间竞争会导致人才流动,相应的人才流动是一个重要的竞争信号,所以通过分析人才流动可以提供更好的范式研究企业间的竞争。

首先,张乐博士介绍了两篇课题组最新发表在KDD2020年关于竞争力分析的工作。第一篇工作是用表征学习方法分析公司之间的合作竞争关系。如下图所示,首先利用公司之间的控股关系、诉讼关系等构建网络,然后将经过处理的公司属性信息(数字属性、文本属性等)输入图神经网络,习得每个公司的统一表征,同时设计特定损失函数,确保表征同时保留公司属性信息和网络结构信息。接着,基于习得表征生成各公司的合作和竞争偏好,再基于偏好预测两个公司之间的竞争与合作关系。在生成偏好时使用符号网络经典理论,如“敌人的敌人就是朋友”等对偏好生成进行约束。该工作得到一些有意思的发现,比如有的小公司联合其他小公司抱团对抗来自大公司的竞争,有的借助大公司的力量减轻竞争压力。

第二篇工作是用表征学习方法进行POI竞争力分析。该问题涉及两个网络,一是POI网络,二是收集用户评论数据构建的基于POI的品牌和服务构成的知识网络。如下图所示,整个模型可分成三个模块,模块一通过图神经网络学习POI网络每个POI的表征,改良GNN模型,使之保留POI空间位置分布和位置坐标等信息;模块二通过图神经网络学习POI知识网络中每个品牌,服务对应的表征,最后通过Cross Attention学习成对POI之间的增强语义信息,结合模块一学出的每个POI的表征,预测两个POI之间是否存在竞争关系,并给出解释说明。

然后张乐博士对预备内容进行了说明,首先从领英网收集简历,从中提取出工作流转记录,基于此构建人才流动网络;接下来基于一些数据,统计分析人才流动特点:第一,人才流动是非对称的。即若公司u到v存在人才流转,v到u不一定存在人才流转;第二,人才流动存在可传递性,即若公司u与v存在人才流转,公司v与w存在人才流转,那么公司u与w很可能也存在人才流转;第三,两公司在网络中存在越多和越短可转移路径时,越有可能存在人才流转。这种人才流转趋势可以用PPR(个性化PageRank)进行估计。

张乐博士根据人才流动定义竞争力,假设人才很可能从公司u流转到公司v,并且u是v的主要人才来源,此时公司v对u的竞争力很高。计算网络中节点v对u的PPR相似度,用其代表u人才流转到v的可能性。同时将原始网络进行转置,用转置网络中u对v的PPR相似度估计v的主要人才来源是u的可能性,结合二者得到竞争力的数学表示。

接着,张乐博士介绍了研究方法。在人才流动网络里,每个公司的人才都会受到其他公司的吸引力,同时每个公司也会对其他公司的人才有吸引力,可通过表征各个公司的这两种吸引力来指示他们之间的竞争关系。用原向量表示公司u人才受到其他公司的吸引力,目标向量表示公司u对其他公司人才的吸引力,用的表达式指示公司的竞争力。张乐博士将拆分成两部分,前半部分保留原始网络的PPR相似性,后半部分保留转置网络中节点间的PPR相似性。如下图所示,首先构建人才流动网络,在原始网络中做PPR相似度保留的表征学习,获取吸引力向量的前半部分,然后在对应转置网络中做PPR相似度保留的表征学习,获取吸引力向量的后半部分,最后通过向量拼接得到想要的吸引力表征。

同时,张乐博士介绍了一下如何在原始网络中做PPR保留的表征学习。网络中所有节点对于目标节点u的PPR相似度可以看作分布,而且满足下面递归的式子:

这里α表示一个跳转概率,A是网络对应的转移矩阵,r表示一个向量,向量r中u对应的那一维等于1。张乐博士通过随机游走的方法进行估计,即估计其他节点对u的PPR相似度时,在网络中从节点u开始执行随机游走,且每一步会以“1-α”的概率终止,当随机游走结束时,路径终点可看作目标分布的一个样本,根据Monte Carlo思想,当样本量足够大时,分布可被较准确的估计出来。第一步,用MonteCarlo加随机游走方法估计目标分布,同时在表征空间里可生成一个近似的分布。由于PPR相似性是非对称的,所以用的点积表示u到v距离,的点积表示v到u的距离,从而保留节点间的非对称关系,最后通过softmax函数对v对u估计的相似性进行归一化操作。第二步,用生成分布拟合目标分布。张乐博士选择用KL散度计算两分布之间的距离,目标是最小化两分布之间的KL散度,等价于最小化交叉熵的式子,但直接优化该式非常耗时,因为该式生成分布的分母部分有累加操作,需遍历整个网络的节点。因此张乐博士选择噪声对比估计方法(NCE)进行处理。具体操作如下:默认分布随机采样节点u,根据Monte Carlo加随机游走方法,从u的目标分布采样正样本,同时从预设的噪声分布里采样多个负样本出来。NCE旨在训练分类器来判别这些正负样本,这里将默认分布和噪声分布都设为均匀分布(n分之一)。当NCE的噪声样本个数增加时,NCE损失函数的负梯度接近前面交叉熵式子的梯度,因此原始目标可转化为最大化NCE损失,这样就可用随机梯度下降方法求解,转置网络也可用同样方法求解。完成原始网络和目标向量的求解后,通过向量拼接方式得到每个节点的原向量跟目标向量。接下来介绍吸引力向量的性质,首先在原始网络中将NCE的损失函数展开,当向量维度足够大时,该展开式可看成一个个独立向量点积的函数,然后令函数对每个独立单元的偏微分等于0来最大化损失函数,得出原始网络中的点积恰好等于v对u的PPR相似性的对数,转置网络也有相同性质,联合两者证明了吸引力向量可以保留公司间的竞争关系。

进一步讨论如何融合多个岗位人才流动信息如何学到更全面的表征。将表征的每一维看成特定的特征,假设公司基本特征保持不变,但每个特征在不同岗位网络中、竞争中起到的作用不同。原本用向量点积指示两个公司的竞争关系,而点积操作本身有很强的假设,认为不同维度对最终结果影响相同,所以为表示出不同网络的差异性,为每个岗位网络引入角色向量,用来突出不同维度作用不同。此时在特定岗位上这种竞争关系就变成了张量积的形式。

为防止梯度爆炸,限制决策向量的每一维都在0-1之间。融合多个网络之后的损失函数如下:

+

这里k表示某个特定岗位网络,中间部分类似之前的基本模型,不同点是生成分布两个节点间的距离从之前的两向量点积变成了三向量张量积,损失函数还是用NCE进行估计,对吸引力向量的表征学习通过随机梯度下降法进行求解,因角色向量任一维度限制在0-1之间,所以用投影梯度下降法进行求解。

接下来张乐博士介绍了具体实验。张乐博士从领英数据集抽取构建四个岗位人才流转网络,设计了几个任务验证模型的效果。在链接预测任务里,选取X%的边作为训练集,“1-X%”的边作为测试集正样本,同时随机生成跟正样本相等数目的负样本。在训练集学习模型、学习表征,在测试集验证效果,用AUC做评价指标,从上图可以看出模型效果不错。本身链接预测只能预测两个公司间是否存在人才流动,张乐博士进一步预测了人才流动的强度。他以2015-2016年人才流动数据作为训练集,2017年的数据作为测试集,进而用表征估计测试集的人才流动强度,给定一个公司u,可以根据预测结果对其他公司进行排序,最后用[email protected]指标预测排序结果。

如上图,基本上所有模型的效果都较差,因为人才流动具有高动态性,任务本身很困难,但提出来的模型能够取得相对不错的效果。

同时,张乐博士简要介绍了网络重构实验,首先在全量数据集学习表征,进而计算两两节点对的表征相似性,并对节点对排序。保留与原网络相同边数的节点对,把这些节点对相互连接构成新的网络,最后比较原网络和新网络间的出入度分布,发现模型生成的出入度分布和原始网络出入度分布最为接近。

张乐博士将研究成果应用于实际,做了两个案例分析。一个是竞争对手发掘案例,如下图所示:

右边是Google在四个不同岗位上top-20竞争对手的分布,名字大小表示竞争强弱,可明显看出分布差异,证明了引入角色向量的有效性。对Google来说,在工程师岗位上,主要竞争对手都是高科技公司;在咨询岗位上,法律公司和服务公司的竞争力逐渐增加。此外,模型不仅可以挖掘公司在不同岗位的竞争对手,还可以挖掘公司在全局上的竞争对手,如图中Google和Facebook的top-20竞争对手分布,可看出他们之间竞争最为激烈。

接下来是对吸引力向量进行聚类。用K-means算法对原向量进行聚类并映射到相应二维空间。

如上图所示,相同领域的公司更易聚集。对目标向量也进行聚类,发现之前按照领域划分的簇被分开,此时簇根据公司所在地区进行聚合。结果发现,同一领域公司的人才的吸引力相似,员工跳槽一般不愿意跨地区,导致同一地区,同一领域的公司对人才吸引力更为相似。

最后,张乐博士简单总结了这次报告。这次报告介绍了基于人才流动表征的竞争力分析方法,主要学习每个公司的两种吸引力向量,进而揭示他们竞争力的关系。张乐博士表示未来会考虑更加复杂的属性,如员工任期和动态因素等,来丰富企业竞争分析的方法。

AI未来说*青年学术论坛

第一期 数据挖掘专场

1. 李国杰院士:理性认识人工智能的“头雁”作用

2. 百度熊辉教授:大数据智能化人才管理

3. 清华唐杰教授:网络表示学习理论及应用

4. 瑞莱智慧刘强博士:深度学习时代的个性化推荐

5. 清华柴成亮博士:基于人机协作的数据管理

第二期 自然语言处理专场

1. 中科院张家俊:面向自然语言生成的同步双向推断模型

2. 北邮李蕾:关于自动文本摘要的分析与讨论

3. 百度孙珂:对话技术的产业化应用与问题探讨

4. 阿里谭继伟:基于序列到序列模型的文本摘要及淘宝的实践

5. 哈工大刘一佳:通过句法分析看上下文相关词向量

第三期 计算机视觉专场

1. 北大彭宇新:跨媒体智能分析与应用

2. 清华鲁继文:深度强化学习与视觉内容理解

3. 百度李颖超:百度增强现实技术及应⽤

4. 中科院张士峰:基于深度学习的通用物体检测算法对比探索

5. 港中文李弘扬 :物体检测最新进展

第四期 语音技术专场

1. 中科院陶建华:语音技术现状与未来

2. 清华大学吴及:音频信号的深度学习处理方法

3. 小米王育军:小爱背后的小米语音技术

4. 百度康永国:AI 时代的百度语音技术

5. 中科院刘斌:基于联合对抗增强训练的鲁棒性端到端语音识别

第五期 量子计算专场

1. 清华大学翟荟:Discovering Quantum Mechanics with Machine Learning

2. 南方科技大学鲁大为:量子计算与人工智能的碰撞

3. 荷兰国家数学和计算机科学中心(CWI)李绎楠:大数据时代下的量子计算

4. 苏黎世联邦理工学院(ETH)杨宇翔:量子精密测量

5. 百度段润尧:量子架构——机遇与挑战

第六期 机器学习专场

1. 中科院张文生:健康医疗大数据时代的认知计算

2. 中科院庄福振:基于知识共享的机器学习算法研究及应用

3. 百度胡晓光:飞桨(PaddlePaddle)核心技术与应用实践

4. 清华大学王奕森:Adversarial Machine Learning: Attack and Defence

5. 南京大学赵申宜:SCOPE - Scalable Composite Optimization for Learning

第七期 自动驾驶专场

1. 北京大学查红彬:基于数据流处理的SLAM技术

2. 清华大学邓志东:自动驾驶的“感”与“知” - 挑战与机遇

3. 百度朱帆:开放时代的自动驾驶 - 百度Apollo计划

4. 北理宋文杰:时空域下智能车辆未知区域自主导航技术

第八期 深度学习专场

1. 中科院文新:深度学习入门基础与学习资源

2. 中科院陈智能:计算机视觉经典——深度学习与目标检测

3. 中科院付鹏:深度学习与机器阅读

第九期 个性化内容推荐专场

1. 人民大学赵鑫:基于知识与推理的序列化推荐技术研究

2. 中科院赵军:知识图谱关键技术及其在推荐系统中的应用

第十期 视频理解与推荐专场

1. 北京大学袁晓如:智能数据可视分析

第十一期 信息检索与知识图谱专场

1. 北京邮电大学邵蓥侠:知识图谱高效嵌入方法

2. 人民大学徐君:智能搜索中的排序-突破概率排序准则

3. 百度周景博:POI知识图谱的构建及应用

4. 百度宋勋超:百度大规模知识图谱构建及智能应用

5. 百度冯知凡:基于知识图谱的多模认知技术及智能应用

第十二期 年度特别专场

1. 复旦大学桂韬:当NLP邂逅Social Media--构建计算机与网络语言的桥梁

2. 清华大学董胤蓬:Adversarial Robustness of Deep Learning

3. UIUC罗宇男:AI-assisted Scientific Discovery

4. 斯坦福应智韬:Graph Neural Network Applications

第十三期 AI助力疫情攻关线上专场

1. 清华大学吴及:信息技术助力新冠防控

2. 北京大学王亚沙:新冠肺炎传播预测模型

3. 百度黄际洲:时空大数据与AI助力抗击疫情——百度地图的实践与思考

4. 百度张传明:疫情下的“活”导航是如何炼成的

第十四期 深度学习线上专场

1. 中国科学院徐俊刚:自动深度学习解读

2. 北航孙钰:昆虫目标检测技术

3. 百度尤晓赫:EasyDL,加速企业AI转型

4. 百度邓凯鹏:飞桨视觉技术解析与应用

推荐阅读专题

留言 点赞 发个朋友圈

我们一起分享AI学习与发展的干货

推荐文章阅读

ACL2018论文集50篇解读

EMNLP2017论文集28篇论文解读

2018年AI三大顶会中国学术成果全链接

ACL2017 论文集:34篇解读干货全在这里

10篇AAAI2017经典论文回顾

长按识别二维码可添加关注

读芯君爱你