香侬科技获AllianzGI Hackathon比赛冠军

近日, 香侬科技(ShannonAI)受邀参加全球最大保险和资产管理集团之一、欧洲最大保险公司德国安联(Allianz)举办的,主题为“人工智能技术与金融”的编程马拉松(Allianz GI Hackathon)比赛。

香侬科技 孙晓飞、孟昱先、冯镜蓉 代表公司参加比赛,并 获得“High Impact News识别问题”冠军

受邀参加此次比赛的9家公司,是安联全球投资者(AllianzGI)从全球多个地区,包括中国、印度、伦敦、纽约、巴黎、波兰、乌拉圭等,筛选出的全球顶级人工智能公司。

该比赛中,9家参赛公司使用人工智能技术,在48小时内,提供了金融行业中三个用例的解决方案,包括分销、投资和风险。

香侬科技参与的用例是 投资(Investment use case),凭借对自然语言处理的深刻理解,以及独创的舆情风险分类器模型,实现了高影响因子新闻对债券市场影响程度的准确判断, 该项成果将落地应用于安联之后的实际业务中。

香侬科技在本次比赛中主要使用了 命名实体识别(Named Entity Recognition, NER)、实体链接(Entity Linking, EL)、定向情感分析(Targeted-Sentiment Analysis) 等自然语言处理(Natural Language Processing, NLP)相关技术。

并以香侬科技独创的“ 香侬舆情风险分类框架 ”为主体框架,在预训练的风险分类模型基础上,针对比赛数据,对不同情况进行微调,实现了分类效果的最优化,达到了产品的使用要求。

以下为此次项目中用到的五种具体技术和方法:

数据清洗

众所周知,金融领域是数字化程度最高的行业之一,每天产生的信息也是所有行业中最多的之一,但其中包含很多冗余、无用信息,即所谓的“脏数据”。

在运用人工智能相关技术时,需要尽量避免“脏数据”的混入,以免这些数据对最终效果产生不利影响。 所以在使用数据前,需要对数据进行清洗,即去除数据中“脏”的部分。

本次比赛中,我们经判定并去除的“脏数据”包括,过期数据、无关新闻、广告新闻、不含实体的新闻、对新闻中语句进行分类后产生的无关语句等,并根据债权收益变化启发式选择训练数据。

命名实体识别

命名实体识别是在给定的文本中,找出命名的所有实体及其类型。通常在新闻中,我们需要在文中找到合法的公司实体和舆情实体,并找出其在文中的准确位置。

命名实体识别的困难在于容易漏分类、误分类,基于此,香侬科技靠自主研发的相关模型,提出了相关解决办法,有效提升了该问题的解决效率。

香侬科技目前的命名实体识别模型支持公司名、组织名、人名、地名、时间、宏观、金融概念等的识别。

实体链接

实体链接是在不同的数据(新闻)中找到对同一个实体的描述。比如一家公司,可能有很多别称,但我们需要将所有别称识别为同一家公司,同时能够区别相似名称的不同公司,而且要在跨数据集中找到所有的同指公司与鉴别异指公司。

这就要求我们一方面要有高质量的数据集,即需要在原始数据中进行清洗,同时还要有足够智能的模型进行识别。

基于此,我们采用综合命名实体识别与香侬舆情风险分类器,并基于深度学习方法来实现相关需求。

模型预训练与微调

通常来说,深度学习算法的各种模型,都是针对特定任务训练的,但有些任务的可获得数据极少,所以需要使用预训练方法,利用大规模外部语料,即网上公开存在的海量信息,来对模型整体或部分进行训练,从而得到模型的初始权重。

就金融领域而言,我们可从网上获得大量实时的公开信息,这些信息为模型提供了天然的训练资料,有利于进行准确、高效的预训练。

但由于预训练数据和任务数据的差异性,所以需要在特定任务上进行微调(Fine-tune),即使用真实需要的数据进行训练。

这样操作,不仅模型收敛变快,同时因为利用了大规模外部语料,可以显著提升模型的实际效果。在本次比赛中,我们便使用了这种预训练-微调的训练方式。

香侬舆情风险分类器

由于新闻对债券的影响,很多时候是通过新闻所蕴含的情感倾向和该新闻透漏的,某家公司的风险或利好标签来体现的,对于此问题,我们使用了香侬科技自主研发的风险分类预训练模型来解决,即“香侬舆情风险分类器”。

基于比赛为全封闭的网络环境,虽然我们仍然采用了预训练方法,但只能使用预训练模型而非现有的外部语料进行训练,即预先将大规模的外部语料在分类器上进行预训练,然后在主办方给定的数据上进行微调。

一方面减少了数据的过拟合,另一方面又能利用预训练模型的优势,实现效果的提升。 同时,由于比赛仅有48个小时,所以我们固定了模型的部分参数来提高训练速度,并减少过拟合问题。

此外,由于公司主体的标签和每一条新闻的标签并非一一对应的关系,我们还需要对标签进行消歧。即在获取到公司标签后,推断每一条新闻的标签,或根据多条新闻的标签得到同一主体的标签。

对该问题,我们依然采用“香侬舆情风险分类器”与命名实体识别和实体链接技术对标签进行消歧,在消歧之后,便可以精准判断新闻或公司(舆情)的类别。

我来评几句
登录后评论

已发表评论数()

相关站点

+订阅
热门文章