联系我们

地址:上海市虹口区广纪路838号中国出版蓝桥创意产业园B幢215-217室

电话: 021-61072106

传真:021-23081199

电子邮件:
 info@insourceculture.c

资源banner

语料资源

汉语

      

国家语委现代汉语语料库http://www.cncorpus.org/

      

现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。

      

古代汉语语料库http://www.cncorpus.org/login.aspx

      

网站现在还增加了一亿字的古代汉语生语料,研究古代汉语的也可以去查询和下载。同时,还提供了分词、词性标注软件、词频统计、字频统计软件,基于国家语委语料库的字频词频统计结果和发布的词表等,以供学习研究语言文字的老师同学使用。

      

 

      

台湾中央研究院

      

http://elearning.ling.sinica.edu.tw/resources.html

      

1.现代汉语平衡语料库http://www.sinica.edu.tw/SinicaCorpus/

      

专门针对语言分析而设计的,每个文句都依词断开,并标示词类。语料的搜集也尽量做到现代汉语分配在不同的主题和语式上,是现代汉语无穷多的语句中一个代表性的样本。现有语料库主要针对语言分析而设计,由中央研究院信息所、语言所词库小组完成,内含有简介、使用说明,现行的语料库是4.0的版本。

      

2.古汉语语料库http://www.sinica.edu.tw/ftms-bin/ftmsw

      

古汉语语料库包含以下五个语料库: 上古汉语、中古汉语(含大藏经)、近代汉语、其他、出土文献。部分数据取自史语所汉籍全文数据库,故两者间略有重迭。此语料库之出土文献语料库,全部取自史语所汉简小组所制作的数据库。

      

3.近代汉语标记语料库http://www.sinica.edu.tw/Early_Mandarin/

      

为应汉语史研究需求而建构的语料库。目前素语料库所搜集的语料已含盖上古汉语(先秦至西汉)、中古汉语(东汉魏晋南北朝)、近代汉语(唐五代以后)大部分的重要语料,并己陆续开放使用;在标记语料库方面,上古汉语及近代汉语都已有部分语料完成标注的工作,并视结果逐步提供上线检索。

      

4.树图数据库http://treebank.sinica.edu.tw/

      

「中文句結構樹資料庫」(Sinica Treebank Version 3.0) 包含了6個檔案,61,087個中文樹圖,361,834個詞,是中央研究院詞庫小組從中央研究院平衡語料庫 (Sinica Corpus) 中抽取句子,經由電腦剖析成結構樹,並加以人工修正、檢驗後所得的成果。在中文句結構樹中,我們標示了中文句語意和語法的訊息。此一「中文句結構樹資料庫」目前開放網上檢索及資料移轉,以供學者專家在中文句法、語意關係研究參考之用。另有1000個句結構樹開放下載。

      

5.中英双语知识本体词网http://bow.sinica.edu.tw/

      

结合词网,知识本体,与领域标记的词汇知识库。

      

6.搜文解字http://words.sinica.edu.tw/

      

包含「搜词寻字」、「文学之美」、「游戏解惑」、「古文字的世界」四个单元,可由部件、部首、字、音、词互查,并可查询在四书、老、庄、唐诗中的出处,及直接连结到出处,阅读原文。

      

7.文国寻宝记http://www.sinica.edu.tw/wen/

      

在搜文解字的基础之上,以华语文学习者为对象,进一步将字、词、音的检索功能与国编、华康、南一等三种版本的国小国语课本结合,与唐诗三百首、宋词三百首、红楼梦、水浒传等文学典籍结合,提供网络上国语文学习的素材。

      

8.唐诗三百首http://cls.admin.yzu.edu.tw/300/

      

以国中、小学学生为主要使用对象,提供吟唱、绘画、书法等多媒体数据,文字数据报含作者生平、读音标注、翻译、批注、评注、典故出处等资料;检索点包含作者、诗题、诗句、综合资料、体裁分类等;检索结果可以列出全文,并选择标示相关之文字及多媒体数据。并提供了一套可以自动检查格律、韵脚、批改的「依韵入诗格律自动检测索引教学系统」,协助孩子们依韵作诗,协助教师批改习作。

      

9.汉籍电子文献http://www.sinica.edu.tw/~tdbproj/handy1/

      

包含整部25史 整部阮刻13经、超过2000万字的台湾史料、1000万字的大正藏以及其他典籍。

      

10.红楼梦网络教学研究数据中心http://cls.hs.yzu.edu.tw/HLM/home.htm

      

元智大学中国文学网络系统研究室所开发的「网络展书读—中国文学网络系统」,为研究中心负责人罗凤珠老师主持,红楼梦是其中一个子系统,其他还包括善本书、诗经、唐宋诗词、作诗填词等子系统。此网站为国内Internet最大中国文学研究数据库,提供用户最完整的中国文学研究数据。

      

 

      

中国传媒大学

      

1.中国传媒大学文本语料库检索系统

      

http://ling.cuc.edu.cn/RawPub/

      

2.在线分词标注系统

      

 http://ling.cuc.edu.cn/cucseg/

      

3.新词语研究资源库

      

http://ling.cuc.edu.cn/newword/web/index.asp 

      

哈尔滨工业大学

      

哈工大信息检索研究室对外共享语料库资源http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm         该语料库为汉英双语语料库,10万对齐双语句对,文本文件格式,同义词词林扩展版,77,343条词语,秉承《同义词词林》的编撰风格,同时采用五级编码体系,多文档自动文摘语料库,40个主题,文本文件格式,同一主题下是同一事件的不同报道,汉语依存树库,不带关系5万句,带关系1万句,LTML化,分词、词性、句法部分人工标注,可以图形化查看,问答系统问题集,6264句,已标注问题类型,LTML化,分词、词性、句法、词义、浅层语义等程序处理得到,单文档自动文摘语料库,211篇,分不同体裁,LTML化,文摘句标注,分词、词性、句法、词义、浅层语义、文本分类、指代消解等程序处理得到。 

微信公众账号

扫一扫

关注英硕公众号