预训练语言模型(PLM)如BERT和T5,在许多自然语言处理(NLP)任务中显著提高了性能。此类改进和模型快速迭代背后的一个关键驱动力是通用语言评测基准的普遍使用,如GLUE,CLUE和CUGE。随着PLM的日益成熟和金融行业对自然语言处理技术的不断需求,金融自然语言处理的研究和应用规模也在不断扩大。然而,现有的语言评估基准大多在通用领域,没有针对中文金融领域的自然语言处理评估基准。因此,有必要在中文金融领域建立一个自然语言处理评估基准。
为了解决这个问题并促进中文金融自然语言处理的研究,我们引入了一个中文金融自然语言理解和生成评测基准FinCUGE,该基准包含八个不同的自然语言理解任务,包括摘要生成、文本分类、关系抽取、事件抽取和其他任务。值得注意的是,为了确保评估基准的专业性,更好地反映金融自然语言处理模型的价值,这些任务的选择和创建由金融专家指导。同时,我们还以问卷的形式统计了不同任务的实用性得分,以指导我们的评价基准对不同任务给予不同的关注最后,为了确保我们的评估基准能够跟上时代的步伐,我们引入了一个开放的社区来与行业保持沟通,并支持用户对现有的评估基准和新的数据集提出意见。
此外,我们注意到现有的研究已经发现以全局平均分数代表模型的评测结果会带来各种问题,因为不同的任务使用不同的指标,具有不同的难度,因此我们将会在FinCUGE后续迭代的版本中引入“参数规模指导的分数正则化方法”,该方法的详细描述可参考我们的论文。
在股吧和雪球等股民论坛中,股民们每天会产出海量的评论文本,其中包含有感性的情感输出和理性的涨跌预测等内容。针对这些文本,该数据集要求模型学习并预测文本的情绪指数(0、1、2,分别代表消极中性和积极)
输入 | 输出 |
---|---|
'又要动作了,小康就是两市隐藏的龙头' | 2 |
'补仓补的心力憔悴' | 0 |
事件抽取是指自动从文本中识别事件的发生,抽取事件参数并整理成结构化数据的算法,包括企业投融资、上市、收购等事件的检测和参数抽取。为了更好的横向对比不同的模型,我们将该数据集整理为阅读理解问答(QA)的形式,将一条事件抽取的标注数据整理为了多条问答数据,对于每条问答数据,模型只需要回答一个与文本中的事件论元有关的问题即可,这一改动将方便我们公平对比不同的PLM。
输入 | 输出 |
---|---|
'程宗玉解除质押事件对应的披露时间是什么?原标题:名家汇(8.330,-0.12,-1.42%)(300506.SZ):控股股东程宗玉解除质押2750万股
来源:格隆汇\n格隆汇8月2日丨名家汇(300506.SZ)公布,公司于近日收到公司控股股东程宗玉通知,中国新兴集团有限责任公司(“中国新兴集团”)母公司中国通用技术(集团)控股有限责任公司已于2019年7月30日召开董事会审议通过关于新兴集团收购程宗玉持有的名家汇11.38%的股权事项,程宗玉于2019年6月24日与中国新兴集团签署的《关于深圳市名家汇科技股份有限公司之股份转让协议》已经生效。\n新兴集团向程宗玉提供的借款自动转为《股份转让协议》第5.1条约定的对应金额的股份转让价款,程宗玉已将其质押给中国新兴集团的股份提前购回,涉及2750万股。\n截至公告披露之日,程宗玉持有公司约2.9823亿股股份,占公司总股本的45.53%。此次解除质押股份合计2750万股,占其持有公司股份总数的9.22%,占公司总股本的4.20%。程宗玉累计质押股份1.65319亿股,占其持有公司股份总数的55.43%,占公司总股本的25.24%。'
|
8月2日 |
与常规事件抽取不同,因果事件抽取专注于在文本中识别出具有因果关系的两个事件及其事件参数,并将其整理为机构化数据。我们的因果事件数据集包含对大宗商品领域的因果事件识别,识别的事件类型包括台风/地震,供给增加/减少,需求增加/减少,价格上升/下降等可能为原因和结果事件及其对应关系和对应的产品、地区等参数 。为了更好的横向对比不同的模型,我们将该数据集整理为阅读理解问答(QA)的形式,将一条事件抽取的标注数据整理为了多条问答数据,对于每条问答数据,模型只需要回答一个与文本中的事件论元有关的问题即可,这一改动将方便我们公平对比不同的PLM。
输入 | 输出 |
---|---|
下文中有哪些因果事件?铁矿:中长期,今年铁矿供需格局明显改善,巴西矿难及飓风对发运的影响,导致铁矿石全年供应走低', '台风导致供给减少
|
铁矿石 |
中文金融新闻摘要生成任务。该数据集取自于新浪财经的大规模中文短新闻,包含了20000条真实的中文短文本数据和对应的摘要。
输入 | 输出 |
---|---|
天宇股份公告,预计2021年半年度归属于上公司股东的净利润1.7亿元-2.3亿元,同比下降39.68%-55.41%。公司主营产品沙坦类原料药受低端市场激烈竞争影响,原料药销售价格较去年同期下降;子公司山东昌邑一期项目和京圣药业生产基地建设完成,进入试生产阶段和达产阶段,产能利用率没有完全释放,生产成本阶段性较高等原因导致报告期毛利率较上年同期下降。
|
天宇股份:半年度净利润预降40%-55% |
一个人工精标注的财经金融领域的数据集。给定句子和其中的头尾实体,要求模型预测头尾实体之间的关系。该数据集由新浪财经新闻语料标注得到,其中命名实体为商业公司,在关系上设计了44个金融领域的关系类别(双向),包含拥有、持股、竞争、收购、交易、合作、减持等财经金融领域的特有关系类别。
输入 | 输出 |
---|---|
'东方航空', '上航', '东方航空AH股临时停牌传将与上航合并
|
合并 |
本数据集包含两个任务: 负面信息判定:判定该文本是否包含金融实体的负面信息。如果该文本不包含负面信息,或者包含负面信息但负面信息未涉及到金融实体,则负面信息判定结果为0。 负面主体判定:如果任务1中包含金融实体的负面信息,继续判断负面信息的主体对象是实体列表中的哪些实体。
输入 | 输出 |
---|---|
今年4月,重庆市反诈骗中心民警发现一条疑似诈骗线索:一家名为北银创投的公司涉嫌网络贷款诈骗犯罪','北银创投'
|
'1','北银创投' |
把金融新闻分类为一个或多个与其描述内容相关的类别。新闻采样于新浪财经,目前共有公司(个股)、行业(板块)、大盘、中国、国际、经济、政策、期货、债券、房地产、外汇、虚拟货币、新冠、能源等14个类别 。
输入 | 输出 |
---|---|
'市场消息:韩国监管机构表示,苹果公司已针对监管应用商店运营商的新法律提交了合规计划。'
|
外国 公司 |
本评测任务的主要目标是从真实的新闻语料中,抽取特定事件类型的主体。即给定一段文本T,和文本所属的事件类型S,从文本T中抽取指定事件类型S的事件主体。即输入:一段文本,事件类型S;输出:事件主体
输入 | 输出 |
---|---|
' 3.杨浦(4起)近期,上海市公安局杨浦分局对4起涉嫌非法吸收公众存款的案件立案侦查,案件情况通报如下:2018年6月20日,上海市公安局杨浦分局根据群众报案,对上海成雨投资控股集团有限公司(“钱妈妈”理财平台)涉嫌非法吸收公众存款罪立案侦查,并对公司高管王某等6名犯罪嫌疑人依法采取刑事强制措施','高管负面'
|
钱妈妈 |
Copyright © 2023 超对称(北京)科技有限公司 京ICP备16038314号