超对称

Common Corpus

语料库覆盖14个高质量数据源，覆盖书籍、百科、论文、小说、新闻、政策文件、中文博客、社交媒体等多个数据源种类。

点击下载

为了更好地推进中文金融自然语言处理的发展，我们搜集和爬取了几乎所有公开可以获得的中文金融语料数据:

1.过去20年所有主流媒体平台发布的财经政治经济新闻
2.所有上市公司公告和财报
3.上千万份研究院和咨询机构的研究报告
4.百万本金融经济政治等社会科学类书籍
5.金融社交媒体平台用户发帖
点击下载