登录
01

Common Corpus

语料库覆盖14个高质量数据源,覆盖书籍、百科、论文、小说、新闻、政策文件、中文博客、社交媒体等多个数据源种类。

点击下载
书籍 百科 论文 博客
Size(MB) 140 1602 2054 298
Token 419,964,864 375,677,303 3,297,545 66,215,463
Docs 563,489 406,080
02

Financial Corpus

为了更好地推进中文金融自然语言处理的发展,我们搜集和爬取了几乎所有公开可以获得的中文金融语料数据:

1.过去20年所有主流媒体平台发布的财经政治经济新闻
2.所有上市公司公告和财报
3.上千万份研究院和咨询机构的研究报告
4.百万本金融经济政治等社会科学类书籍
5.金融社交媒体平台用户发帖

点击下载
社交 新闻 研报 公告
Size(MB) 946 6,243 852 1,095
Token 194,939,170 1,154,717,400 1,849,027,625 187,060,779
Docs 4,890,727 2,409,436 240,707