资源名称:[MNBVC]超大规模中文语料集[Ver.2023.11]数据包
资源属性:资源总包月度分享版
资源大小:4.57TB
发布版本:Ver.2023.11
更新频率:月更或季更
MNBVC(Massive Never-ending BT Vast Chinese corpus,超大规模中文语料集)项目介绍
官方网站:https://mnbvc.253874.net/
Github项目地址:https://github.com/esbatmop/MNBVC
项目wiki:https://wiki.mnbvc.org
项目工作看板:https://mnbvc.253874.net/workboard.htm
1. MNBVC项目缘起
响应符尧博士的号召(https://yaofu.notion.site/GPT-3-5-360081d91ec245f29029d37b54573756),危机存亡之秋,为避免技术断代,为将几千年历史的中文之美传承给AI。
中文互联网上最古老最神秘(没有之一)的里屋社区于2023.1.1庄重宣布:
在英明神武的里屋管子带领下,决心发挥社区所长(哪都长),帮助开源社区长期更新一份最大的中文互联网语料集。
MNBVC数据集(NLP语料数据集)不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。数据均来源于互联网搜集。
里屋社区资深用户「等战」,「零零发」和「龙骑兵」,共同发起了MNBVC项目。期望能够为中文AI训练提供充足的粮草。
我们欢迎所有有热情和有能力的网友能够来加入MNBVC项目。
2. 语料项目进度:目标是达到chatGPT的40T数据
2023年
️1月15日,数据量286.6GB,进度0.7%
️1月20日,数据量363.36GB,进度0.9%
️1月24日,数据量615.5GB,进度1.5%
2月01日,数据量1021.81GB,进度2.5%
2月06日,数据量1870GB,进度4.7%
2月17日,数据量2169.9B,进度5.4%
3月01日,数据量2180.4GB,进度5.4%
3月12日,数据量2213GB,进度5.5%
3月15日,数据量2376.12GB,进度5.9%
3月19日,数据量2552.28GB,进度6.4%
3月31日,数据量2683.9GB,进度6.7%
4月11日,数据量2782.3GB,进度7.0%
4月27日,数据量3508.3GB,进度8.8%
5月20日,数据量3512.8GB,进度8.9%
6月01日,数据量4938GB,进度12.3%
6月02日,数据量5039GB,进度12.6%
7月02日,数据量5237GB,进度13.1%
7月14日,数据量5311GB,进度13.3%
8月07日,数据量5400GB,进度13.5%
9月03日,数据量7984GB,进度19.96%
9月12日,数据量10118GB,进度25.20%
9月16日,数据量14243GB,进度35.60%
9月23日,数据量16561GB,进度41.40%
10月09日,数据量20811GB,进度52.03%
11月04日,总数据量26201GB,目前进度65.50%
3. 参与方式
3.1 给我们发送邮件 [email protected]
3.2 项目留言板(点进去看一眼,会有厚重的历史年代感):https://mnbvc.253874.net/guestbook
3.3 加入里屋社区:https://253874.net/
3.4 “语料元气弹”,直接上传提交txt文档:https://mnbvc.253874.net/upload/form.htm
4. 数据说明
压缩包密码为253874
压缩包内后缀为txt和json的文件均可作为中文纯文本语料
压缩包根目录的links.txt里有每个子文件夹数据来源的url
每个子文件夹内有一张png格式的图片,是数据来源的网页截图
收录的数据将去掉大于等于8位的数字串进行脱敏
压缩包内数据只做了粗加工,例如html&xml转txt、csv&tsv转json等
我们有一个小组负责将数据精加工成huggingface上开箱即用的语料集,但目前整个项目的算力和人力更优先用于堆量。
5. 数据下载
5.1 通过p2p微力同步全部压缩包并接收更新。
微力密钥:B4MVPVJTK3DOOAOPVLJ3E7TA7RWW4J2ZEAXJRMRSRHSBPDB7OAFHUQ
微力直达链接:https://link.verysync.com/#f=MNBVC%40xclimbing&sz=105E4&k=P4AJDJXHY3RCCOCDJZX3S7HO7FKK4X2NSOLXFAFGFVGPDRP7COTVIE&d=SJZHVB7GAZZLS2ZN43D3NNEBHPMU&t=1&tm=1676793101554&v=v2.16.0&a=1
5.2 百度网盘下载:https://github.com/esbatmop/MNBVC/blob/main/dupan/README.md
6. FAQ
问:这个数据集是干嘛用的?
答:训练中文母语的AI用的。目前AI都是英文母语养大的,成年后再学个翻译,黄皮白心不正宗。
问:以前开源社区没人搞这种数据集吗?
答:有人搞,但数据量可怜。目前能下载的最大的中文数据集也才5个G,且3年不更新了。英文有开源的全网爬取数据的大小为40Tb的数据集。因为中文互联网数据封闭,老外的全网爬虫很少能爬到简中数据。
问:怎么参加这个项目?
答:请参考我们的MNBVC工作看板,看看有什么工作是你能帮助我们完成的。我们需要能有代码产出的工程师来帮助我们进行语料的格式清洗和处理等工作。想要加入项目的朋友请联系我们: [email protected]。。
问:参与第一组要提供什么下载链接?
答:打包的各种txt格式的东西。例如新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等。比如说,有人发现了几万部网络小说的下载链接,把这个链接回帖即可。
问:能否提供压缩包的索引和分类信息?
答:因为我们没有对数据来源进行版权审核的能力,为了能尽量长期的提供服务,本数据集不会提供压缩包的索引和分类信息,并且恳请网友们不要讨论压缩包的索引和分类,低调的使用数据。此外,后续更新的压缩包会对不同来源和分类的数据进行混淆打包。
问:使用项目数据有什么要求?
答:MIT License