资源名称:[MNBVC]超大规模中文语料集[Ver.2024.03.15]春季数据包
资源属性:资源总包月度分享版
资源大小:
6.16TB
发布版本:
Ver.2024.03.15
更新频率:月更或季更
MNBVC(Massive Never-ending BT Vast Chinese corpus,超大规模中文语料集)项目介绍
官方网站:
https://mnbvc.253874.net/
Github项目地址:
https://github.com/esbatmop/MNBVC
项目
wiki:
https://wiki.mnbvc.org
项目工作看板:
https://mnbvc.253874.net/workboard.htm
1. MNBVC项目缘起
响应
符尧博士的号召(
https://yaofu.notion.site/GPT-3-5-360081d91ec245f29029d37b54573756),危机存亡之秋,为避免技术断代,为将几千年历史的中文之美传承给
AI。
中文互联网上最古老最神秘
(没有之一
)的里屋社区于
2023.1.1庄重宣布
:
在英明神武的里屋管子带领下,决心发挥社区所长
(哪都长
),帮助开源社区长期更新一份最大的中文互联网语料集。
MNBVC数据集(
NLP语料数据集)不但包括主流文化,也包括各个小众文化甚至火星文的数据。
MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、
wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。数据均来源于互联网搜集。
里屋社区资深用户「等战」,「零零发」和「龙骑兵」,共同发起了
MNBVC项目。期望能够为中文
AI训练提供充足的粮草。
我们欢迎所有有热情和有能力的网友能够来加入MNBVC项目。
2. 语料项目进度:
目标是达到chatGPT的40T数据
2023年
️1月
15日,数据量
286.6GB,进度
0.7%
️1月
20日,数据量
363.36GB,进度
0.9%
️1月
24日,数据量
615.5GB,进度
1.5%
2月
01日,数据量
1021.81GB,进度
2.5%
2月
06日,数据量
1870GB,进度
4.7%
2月
17日,数据量
2169.9B,进度
5.4%
3月
01日,数据量
2180.4GB,进度
5.4%
3月
12日,数据量
2213GB,进度
5.5%
3月
15日,数据量
2376.12GB,进度
5.9%
3月
19日,数据量
2552.28GB,进度
6.4%
3月
31日,数据量
2683.9GB,进度
6.7%
4月
11日,数据量
2782.3GB,进度
7.0%
4月
27日,数据量
3508.3GB,进度
8.8%
5月
20日,数据量
3512.8GB,进度
8.9%
6月
01日,数据量
4938GB,进度
12.3%
6月
02日,数据量
5039GB,进度
12.6%
7月
02日,数据量
5237GB,进度
13.1%
7月
14日,数据量
5311GB,进度
13.3%
8月
07日,数据量
5400GB,进度
13.5%
9月
03日,数据量
7984GB,进度
19.96%
9月
12日,数据量
10118GB,进度
25.20%
9月
16日,数据量
14243GB,进度
35.60%
9月
23日,数据量
16561GB,进度
41.40%
10月
09日,数据量
20811GB,进度
52.03%
11月
04日,总数据量
26201GB,目前进度
65.50%
12月14日,数据量27480GB,进度68.7%
2024年
1月28日,总数据量 27520GB,目前进度68.8%
3月11日,总数据量 31867GB,目前进度79.67%
3. 参与方式
3.1 给我们发送邮件
[email protected]
3.2 项目留言板(点进去看一眼,会有厚重的历史年代感):
https://mnbvc.253874.net/guestbook
3.3 加入里屋社区:
https://253874.net/
3.4 “语料元气弹
”,直接上传提交
txt文档:
https://mnbvc.253874.net/upload/form.htm
4. 数据说明
压缩包密码为
253874
压缩包内后缀为
txt和
json的文件均可作为中文纯文本语料
压缩包根目录的
links.txt里有每个子文件夹数据来源的
url
每个子文件夹内有一张
png格式的图片,是数据来源的网页截图
收录的数据将去掉大于等于
8位的数字串进行脱敏
压缩包内数据只做了粗加工
,例如
html&xml转
txt、
csv&tsv转
json等
我们有一个小组负责将数据精加工成
huggingface上开箱即用的语料集,但目前整个项目的算力和人力更优先用于堆量。
5. 数据下载
5.1 通过
p2p微力同步全部压缩包并接收更新。
微力密钥
:B4MVPVJTK3DOOAOPVLJ3E7TA7RWW4J2ZEAXJRMRSRHSBPDB7OAFHUQ
微力直达链接:
https://link.verysync.com/#f=MNBVC%40xclimbing&sz=105E4&k=P4AJDJXHY3RCCOCDJZX3S7HO7FKK4X2NSOLXFAFGFVGPDRP7COTVIE&d=SJZHVB7GAZZLS2ZN43D3NNEBHPMU&t=1&tm=1676793101554&v=v2.16.0&a=1
5.2 百度网盘下载:
https://github.com/esbatmop/MNBVC/blob/main/dupan/README.md
6. FAQ
问:这个数据集是干嘛用的?
答:训练中文母语的
AI用的。目前
AI都是英文母语养大的,成年后再学个翻译,黄皮白心不正宗。
问:以前开源社区没人搞这种数据集吗?
答:有人搞,但数据量可怜。目前能下载的最大的中文数据集也才
5个
G,且
3年不更新了。英文有开源的全网爬取数据的大小为
40Tb的数据集。因为中文互联网数据封闭,老外的全网爬虫很少能爬到简中数据。
问:怎么参加这个项目?
答:请参考我们的
MNBVC工作看板,看看有什么工作是你能帮助我们完成的。我们需要能有代码产出的工程师来帮助我们进行语料的格式清洗和处理等工作。想要加入项目的朋友请联系我们:
[email protected]。
问:参与第一组要提供什么下载链接?
答:打包的各种
txt格式的东西。例如新闻、作文、小说、书籍、杂志、论文、台词、帖子、
wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等。比如说,有人发现了几万部网络小说的下载链接,把这个链接回帖即可。
问:能否提供压缩包的索引和分类信息?
答:因为我们没有对数据来源进行版权审核的能力,为了能尽量长期的提供服务,本数据集不会提供压缩包的索引和分类信息,并且恳请网友们不要讨论压缩包的索引和分类,低调的使用数据。此外,后续更新的压缩包会对不同来源和分类的数据进行混淆打包。
问:使用项目数据有什么要求?
答:
MIT License