城市站点
> ccl语料库(干货|国内最常用的17个语料库,收藏)
详细内容

ccl语料库(干货|国内最常用的17个语料库,收藏)

时间:2022-08-16 00:17:10     人气:208     来源:www.zhongshaninfo.com     作者:爱发信息
概述:......


通用单语语料库

01国家语委现代汉语通用平衡语料库

语料库是由国家语言文字工作委员会主持,面向语言文字信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育以及语言文字的社会应用,总体规模达1 亿字,语料时间跨度为1919-2002年,收录了人文与社会科学、自然科学及综合三个大类约40个小类的语料(http://www.cncorpus.org)。其中标注语料库为国家语委现代汉语通用平衡语料库全库的子集,该子集是按照预先设计的选材原则进行平衡抽样,对语料进行分词和词类标注,并经过三次人工校对,最后得到约5000万字符的标注语料库。


(图片来源:全景视觉)

02北京语言大学语料库中心BCC语料库

BCC语料库(http://bcc.blcu.edu.cn)是以汉语为主,兼有英语、西班牙语、法语、德语、土耳其语等语言的语料库,其中汉语语料规模约150亿字,涵盖了报刊、文学、微博、科技、综合和古汉语等多领域语料。BCC语料库包括了生语料、分词语料、词性标注语料和句法树,目前已对现代汉语、英语、法语的语料进行词性标注。

03清华TH语料库

清华TH语料库(http://www.openslr.org/18)于1994年6月建成,其总库根据对语料加工深度的不同采用分级管理的原则,分成了生语料和熟语料两大类,其中0级生语料分库涵盖了一般书、报纸、论文、杂志、工具书等五类子库语料素材。经过近年来不断的升级和更新,已更名为THCHS-30语料库。

04北京大学CCL语料库

CCL语料库(http://ccl.pku.edu.cn:8080/ccl_corpus/index/jsp?=xiandai)中包含现代汉语语料、古代汉语语料两类单语语料,涉及的文献时间从公元前11世纪到当代。其中现代汉语语料约6 亿字符,涵盖了文学、戏剧、报刊、翻译作品、网络语料、应用文、电视电影、学术文献、史传、相声小品、口语等多个类型。CCL语料库中古代汉语语料约2亿字符,收录了从周代到民国的语料及大藏经、二十五史、历代笔记、十三经注疏、全唐诗、诸子百家、全元曲、全宋词、道藏、辞书、蒙学读物等的杂类语料。除了两大单语语料库的扩容外,近年来CCL语料库还融入了一些专题语料库,例如:早期北京话材料、留学生汉语作文语料、汉语构式语料库、中文学术文献语料库、海外华文网络语料等等。

05人民日报标注语料库

该语料库是我国第一个大型的现代汉语标注语料库,以《人民日报》1998年的纯文本语料为基础,完成词语切分、词性标注、专有名词标注、语素子类标注、动词和形容词特殊用法标注、短语型标注等加工工作,现已扩充至3500万字的规模。后来北京大学计算语言学研究所在此基础上完成了另外100万字语料的词语切分、词性标注和汉语拼音标注的加工任务,还利用所研制的《现代汉语语义词典》、参照《现代汉语词典》,根据语料实际使用情况对词义描写进行调整,研发了一个大规模、高质量的现代汉语词义标注语料库(Chinese Word Sense Tagging Corpus,STC)

为了弥补北京大学人民日报语料库用于处理当前文本时的不足,2019年开始南京农业大学人文与社会计算研究中心以2015年至2018年《人民日报》发表的文章为对象,构建了新时代人民日报语料库(简称NEPD,http://corpus.njau.edu.cn/,目前该语料库涵盖了《人民日报》2015 年1-5 月、2016年1月、2017年1月、2018 年1月共9个月的分词语料,并且后续将不断补充最新语料 。

06清华汉语树库(TshinghuaChineseTreebank,TCT )

该语料库从包含文学、学术、新闻、应用四大体裁的200万汉字平衡语料库中提取了100万汉字规模的语料文本,经过自动断句、句法分析后再进行人工校对,形成了有完整句法结构树的汉语句法树库语料。

汉英双语平行语料库

07中国科学院汉英平行语料库

中国科学院汉英平行语料库是在对中英文篇章对齐的双语文本进行段落对齐、句子对齐加工后建立的一个句子级对齐的双语语言信息和知识库,该语料库借助互联网等其他媒体搜集中英文篇章级对齐的双语文本,面向多领域多体裁,采用基于双语辞典的句子对齐方法进行了文本对齐,并对双语文本句子对齐结果实现自动评价。

08南京大学双语词典研究中心英汉双语平行语料库(NJU_BDRCBC)

该语料库的总体规模共约200万对英汉平行句对,英语和汉语词例数高达2亿词次,其素材一方面来源于南京大学双语词典中心拥有自主知识产权的双语辞书标准数据以及英汉双语对照文献,另一方面也面向网络获取了大量的英汉双语平行对语料。南京大学双语词典研究中心还跟商务印书馆联合开发了CONULEXID(The Commercial Press and Nanjing University Lexical Database) 英汉语言资料库,该语料库系统于1994年正式开始创建,并于1997年通过验收。

ccl

09清华大学中英平行语料库

清华大学中英平行语料库(http://thumt.thunlp.org/)由清华大学自然语言处理与社会人文计算实验室在国家“863 计划” 项目“ 互联网语言翻译系统研制” 的支持下,利用自身研发的互联网平行网页获取软件

http://www.jsyunjun.com/file/upload/tt1999/999.jpg

和双语句子自动对齐软件获取并处理得到的,共包含285万中英平行句对。

其他汉外平行语料库

10北京大学计算语言研究所双语平行语料库

该语料库为大型汉英、汉日双语语料库,包含汉英句子级对齐语料20万句对、汉日句子级对齐语料2万句对、汉英词汇级对齐语料1万对,旨在为机器翻译等应用系统的研发提供基础资源和标准的评测语料 。

11北京外国语大学双语平行语料库

由王克非负责构建的汉英和汉日两个平行语料库目前仍在建设中。该语料库包括2000万字的日汉对译文本语料库和3000万字词的通用型汉英平行语料库两个部分。目前2000万字的日汉对译文本语料库的平行对应语料分为文学与非文学、汉译日和日译汉存放,做到段落级对齐,运用所研制的检索工具可对汉日语料做各种词语、短语、句型和搭配上的检索。通用型汉英平行语料库分为,“百科语料库”“翻译文本库”“双语语句库”以及“专科语料库”四个子库,目前3000万字词语料已基本做到句级对齐,其中2000万字词语料已完成最终校对、标注、双语链接。

12南京农业大学典籍平行语料库

基于十三经、《战国策》、前四史等典籍及其所对应的白话文和英文翻译,南京农业大学王东波结合深度学习相应模型设计了句对齐的算法,实现了古文句子与白话文和英文的对齐,并对古文、白话文和英文进行了分词、词性和实体标注,形成了独具特色的典籍平行语

http://www.jsyunjun.com/file/upload/tt1999/999.jpg

料库 。

其他特色语料库

13汉语中介语语料库

汉语中介语语料库(http://qqk.blcu.edu.cn/#/login)由北京语言大学( 原北京语言学院于1992年开始建设。该语料库立足于汉语教学已收录1635位外国学生共5774篇成篇成段的汉语作文或练习材料,总字数约353万,其中1731 篇约104万字的语料经过断句、分词和词性标注等加工处理。目前该全球汉语中介语料库仍处于努力建设过程中,北京语言大学仍然努力于建设全球汉语中介语语料库,其规模预计达5000万字,包括笔语语料、口语语料和多模态子库。笔语语料规模预计达4500万字,其中2000万字将加工成为熟语料;口语语料450小时,约合400万字;多模态语料110小时,约合100万字。

14HSK动态作文语料库

该语料库(http://hsk.blcu.edu.cn/Login)收录了1992-2005年部分母语非汉语的外国人参加高等汉语水平考试(HSK高等) 的作文考试的答卷语料,2006年12月上线语料库1.0版本,现已上线语料库2.0版本,语料总数达11569篇,共计424万字。除此之外,北京语言大学还建立了首都外国留学生汉语文本语料库、汉语学习者口语语料库等多种类型的汉语语料库。北京语言大学多个语料库的问世及相关的研究成果激励了更多学者和单位投入到教学导向的语料库的建设中,已知语料库有:中山大学建立的留学生中介语语料库、汉语连续性中介语料库、广东外语外贸大学与兰卡斯特大学联合建立的Guangwai Lancaster汉语学习者语料库等。

15中国传媒大学有声媒体文本语料库

该语料库(http://ling.cuc.edu.cn/Raw-Pub/)由中国传媒大学国家语言资源检测与研究有声媒体中心开发,2003年开始建设,2005年上线,其后不断扩大语料规模, 并于2016年进行了第三次改版。该语料库包括2008-2013年的3万多个广播、电视节目的转写文本,总字符数达到2.4 亿个,并对所有文本进行了自动分词和词性标注。

16名著汉英平行语料库

《红楼梦》汉英平行语料库是国内第一个根据译者选用原底本所做的句级对齐平行语料库,它的成功发布可为“红学” 不同英译本的研究提供客观科学的平台,为翻译教学提供丰富的资源,为翻译理论探讨提供基本素材 。莎士比亚戏剧英汉平行语料库由上海交通大学的学者研究构建,容量约600万字词。该语料库由英文原文和三个版本的译文构成,在分词的基础上实现了词性标注,以及人物对话层面的对齐,该库可以展开一对一及一对多的平行检索,为莎剧翻译研究和语言研究提供了宝贵资源 。

17少数民族语言语料库

除了汉语相关语料库之外,国内少数民族语言语料库的构建研究工作也正在逐步发展,尤其是蒙古族、维吾尔族、藏族等几个少数民族的语料库。现代蒙古语语料库,由内蒙古大学蒙古语文研究所于1998年构建完成,总规模达5000万词,涵盖了文科教材、理科教材、文学、新闻、政治、社会科学、自然科学、口语等类型语料。内蒙古大学蒙古语文研究所在2003年开始建设汉蒙双语语料库,该语料库总规模达10万个句对,为蒙古文信息处理、语言教学、汉蒙双语研究和汉蒙双语词典的编纂等工作的发展奠定了基础。现代维吾尔语语料库,由新疆大学于2002年开始建设,生语料规模达800万词。西藏大学大型藏文语料库,总规模高达1.5亿藏文字符,其中3000万藏文字符经过分词和词性标注加工 。除此之外,还有200万词的新疆师范大学维吾尔语语料库、规模约1亿3千万字节的西北民族大学大型藏文语料库、500万藏语字符的中国社会科学院民族学语人类学研究所藏语语料库等。

(声明: 网站所收集的部分公开资料来源于互联网,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。 )
  • 近期你只要关注CF的比赛,一定知

    http://www.jsyunjun.com/file/upload/tt1999/999.jpg

    道一个叫vivi的俱乐部,这个在前不久成功杀入穿越火线顶级联赛CFPL S11赛季的比赛的战队背后,有这一个中国电竞第一女老板ViVi,vivi自掏腰包以自己名字命名组建的电竞俱乐部,也是CF所有战队里面唯一一直有女队员报名参加的队伍,然而不为人所知的是,她的

    http://www.jsyunjun.com/file/upload/tt1999/999.jpg

    成功背后,支撑她的却是直播,vivi是龙珠平台一位人气女主播。靠着自己的努力维持战队日常开销,多年经营下来,已经开始崭露头角。


    除了vivi战队,如果说CF里面还有一个战队能让你记住的话,那SV首当其冲,在近几次CF的比赛当中,SV都取得过优异的成绩,重要的是,SV战队不仅仅只有CF一个战队,SV拥有当下最火热的几款电竞游戏《守望先锋》、《穿越火线》、《穿越火线:枪战王者》、《王者荣耀》在内的4支职业战队,电竞业务所涉范围横跨FPS和MOBA两个大项,CF方面的成就最高,在2016年先后拿下了CFPL S8、S9联赛冠军,CFS S5,WCA2016,CFGI的世界冠军,创造了穿越火线职业队伍前无古人的传奇。《王者荣耀》今年的TGA夏季大奖赛城市争霸赛也拿到了冠军,晋级到KPL预选赛,可谓风头正盛。


    http://www.jsyunjun.com/file/upload/tt1999/999.jpg

    而这两只战队都纷纷参加了今年的CCL联赛,准备在另外一个游戏中大展拳脚。

    http://www.jsyunjun.com/file/upload/tt1999/999.jpg

    ccl

    CCL联赛是什么呢?CCL联赛是由腾讯主办的《使命召唤OL》所有联赛当中最高规格的电竞赛事,大赛不仅在竞技强度上更加富有对抗性,在选手实力和赛事关注度上同样达到了顶级职业电竞的水准,从观众的角度来看,CCL更是不容错过的视觉盛宴。


    作为动视暴雪2012年研发,腾讯代理的第一人称射击游戏《使命召唤OL》,在这五年里一直以激烈多变的战场环境和颇具特色的战术装备、武器配件等吸引了一大批FPS玩家的追捧,CCL联赛也受到很多《使命召唤OL》玩家的关注,在之前,AE、情久是都是老牌战队了,也是本届夺冠的大热门,而这两只队伍的加入是否会改变目前CCL联赛的格局呢?ViVi和SV都是TGA晋级队伍,分别是《使命召唤OL》全国锦标赛冠亚军,7月9号下午本届CCL联赛就要开赛,你会看好老牌劲旅情久、

    http://www.jsyunjun.com/file/upload/tt1999/999.jpg

    AE还是看好这两只有这独特标签的队伍呢?

    据消息称,开幕战是情久vsVDA,上届CCL S1的冠亚军战队,开幕战就硝烟弥漫,小编都有点热血了,不管怎样,一起的答案都在7月9号的CCL联赛当中。


  • 在2022年4月14-17日线上举办的2021中国肿瘤学大会(CCO)上,中国医学科学院血液病医院安刚教授以“多发性骨髓瘤免疫治疗”为题,从单克隆抗体、双特异性抗体、抗体药物偶联物(ADC)、CAR-T等部分展开相关介绍。医脉通将主要内容整理如下,供广大读者参考。

    单克隆抗体逐渐进入一线,四药联合成为讨论焦点

    目前,VRd方案(硼替佐米、来那度胺地塞米松)已经成为多发性骨髓瘤(MM)主流一线治疗方案,循证医学证据主要来自于SWOG S0777研究,该研究奠定了VRd方案的诱导治疗地位,在该研究中,大多数患者没有进行自体造血干细胞移植(ASCT),所有患者均未把ASCT作为一线治疗,所以该方案既适用于适合移植患者,也适用于非移植患者;此外,不同年龄段患者均可从VRd方案治疗中获益。美国的一项单中心回顾性真实世界研究纳入了1000例新发MM患者,结果显示总体人群的中位总生存期(OS)高达10年。另外,NCCN指南在这方面的推荐也作出改变,NCCN2021指南推荐VRd/BCD为年轻适合移植MM的一线治疗,NCCN2022指南将VRd作为唯一首选推荐的一线治疗方案。

    值得一提的是,单克隆抗体使得四药方案成为了可能,CASSIOPEIA研究是一项在初治可移植患者中使用四药联用方案的临床试验,对比了CD38单克隆抗体达雷妥尤单抗(DARA,D)+VTd和VTd方案,结果显示加入DARA方案组的PFS明显优于对照组。GRIFFIN临床试验对比了D-VRd和VRd方案治疗适合移植的NDMM患者的疗效,结果表明加入DARA后明显增加了患者的治疗深度,MRD阴性率是对照组的2-3倍,因为随访时间短,无进展生存期(PFS)和OS还没有数据。在初治不可移植的患者中,ALCYONE临床试验对比了D-VMP方案和VMP方案,同样显示四药方案改善了PFS,更长的随访表明OS数据也有改善。这些数据都表明四药组合提高了患者的反应深度和反应持久性,尽管OS数据有些缺乏。除此之外,还有很多四药组合的临床试验正在进行中,例如PERSEUS临床试验,观察的是初治不可移植患者,患者随机分为D-VRd和VRd组,主要临床重点是MRD阴性率。

    安刚教授表示,达到MRD阴性是目前克服高危细胞遗传学影响最好的方式,可使患者获得最好的生存,患者可以通过使用四药联合获得更深入的缓解,因此从MRD角度,高危疾病患者更适合四药联合。另外安刚教授表示,四药联合有望进入一线,可能只是时间问题。

    双特异性抗体,小荷才露尖尖角

    双特异性抗体可识别T细胞上的CD3,同时靶向MM特异性表面标记物,包括B细胞成熟抗原(BCMA)、GPRC5D、FCRH5等,目前,双特异性抗体治疗MM的临床试验多为Ⅰ、Ⅱ期,但一系列临床研究显示出较好的安全性和缓解率。

    Teclistamab是一种靶向BCMA和CD3的双特异性抗体。MajesTEC-1是一项正在进行的Ⅰ/Ⅱ期开放标签、多中心、剂量递增研究。入组的均为三重暴露的患者,共纳入165例患者。结果显示总缓解率(ORR)为62%,≥VGPR率为58%,≥CR率为28.7%,细胞因子释放综合征(CRS)发生率为71.5%,但均为1/2级;ABBV-383也是一种靶向BCMA和CD3的双特异性抗体,一项Ⅰ期研究共纳入118例患者,对RRMM患者耐受性良好,在剂量递增队列,ORR达到80%,期待进一步研究;另外两种靶向BCMA和CD3的双特异性抗体REGN5458和Elranatamab也展现了较好的疗效和安全性。REGN5458治疗RRMM的首次人体一项Ⅰ/Ⅱ期研究证明REGN5458单药可使RRMM患者获得早期、深度和持久的缓解,且安全性和耐受性可接受。此外,现有的数据支持继续研究Elranatamab在MM患者中的应用。

    GPRC5D是一种MM细胞表面受体,其过表达与患者预后不良有关。Talquetamab是一种GPRC5D/CD3双特异性抗体,Ⅰ期研究显示,ORR为66.7%,更长期的随访数据支持Talquetamab QW或Q2W给药对重度RRMM患者带来67%-70%的ORR,随着时

    http://www.jsyunjun.com/file/upload/tt1999/999.jpg

    间的持续,应答持久和加深。

    FcRH5是一种功能未知的膜蛋白,仅在B细胞谱系中表达,包括骨髓瘤细胞,在临床前研究中,体外和体内的研究表明,FcRH5/CD3双特异性抗体可成功激活T细胞,诱导细胞因子的产生,并消除恶性浆细胞。FcRH5/CD3双特异性抗体Cevostamab治疗RRMM的Ⅰ期研究结果显示,ORR为56.7%,在难治性MM患者中显示出具有临床意义的活性,其单药的安全性支持进一步的开发。

    此外,安刚教授介绍道,中国医学科学院血液病医院即将进行一项临床试验,采用DRd联合双特异性抗体治疗初治MM,期待其研究结果。

    ADC药物,需要克服相关毒性

    安刚教授表示,靶向BCMA ADC药物Belantamab Mafodotin单药治疗MM的有效率较高,在DREAMM-1研究中,Belantamab Mafodotin单药治疗RRMM的ORR高达60%;在DREAMM-2研究中,Belantamab Mafodotin单药治疗CD38单抗治疗后的RRMM患者的ORR达32%;DREAMM-9研究应用Belantamab Mafodotin联合VRd治疗NDMM患者,结果显示,CR率为42%,sCR率为25%,MRD阴性率为78%,75%的患者发生与Belantamab Mafodotin相关3/4级AE,与较大的角膜病变发生率相关。

    CAR-T治疗不再满足于晚期治疗

    CAR-T细胞疗法在MM治疗中显示出有前景的成果,尤其是靶向BCMA CAR-T治疗已在多线治疗后RRMM患者中表现出良好安全性和有效性。KarMMa试验评估了idecabtagene vicleucel(ide-cel)的疗

    http://www.jsyunjun.com/file/upload/tt1999/999.jpg

    效和安全性,ORR为73%,中位PFS为8.8个月;CARTITUDE-1研究评估了Ciltacabtagene autoleucel(Cilta-cel)的疗效,ORR高达97.9%。首个靶向GPRC5D CAR-T MCARH109用于RRMM的Ⅰ期研究数据显示,整体ORR为69%,显示出有前景的有效性和安全性。安刚教授表示,CAR-T治疗在MM患者中取得了较好的进展,随着研究的深入,在未来CAR-T有望逐步进入MM的一线治疗。同时,我们应该优化CAR-T流程,提高CAR-T质量,优化CAR-T治疗地位等。

    总结

    最后,安刚教授总结道,多发性骨髓瘤是一种高度依赖微环境的肿瘤,肿瘤细胞、免疫细胞和多种细胞因子相互作用,因此免疫反应在MM发展中至关重要,理解骨髓微环境中的免疫成分是精准靶向治疗肿瘤的关键。


    安刚 教授

    • 博士,主任医师,副教授,硕士生导师,实验血液学国家重点实验室Ⅱ级Pl

    • 中国抗癌协会血液肿瘤第二届青年委员会副主任委员

    • 中华医学会血液学分会第十一届委员会青委会委员

    • 中国抗癌协会青年理事

    • 中国抗癌协会血液病转化委员会委员

    • 中国多发性骨髓瘤研究联盟委员,秘书

    • 中国抗癌协会血液肿瘤委员会秘书

      http://www.jsyunjun.com/file/upload/tt1999/999.jpg

      CCO

    编辑:Quinta

    排版:Quinta

    执行:Quinta

  • 阅读全文
    分享