论文语料库怎么建立
2023-05-31阅读(1095)
问:怎么建立语料库
- 答:1. 多做翻译,之后把翻译对齐(可以用Tmxmall做在线对齐,比较简单),对齐后的文件便是tmx语料库格式
2. 自己到网上下载相关语料,然后做对齐,制作tmx双语文件
3. 倘若公司以前有做过的翻译语料,直接可以用Tmxmall做对齐,复用以前的翻译
4. 用TMROBOT管理语料,防止语料太乱以及语料丢失
建立语料库最大的任务就是做对齐,对齐效率越高,准确率越高,用处就越大。
Tmxmall对齐方式是先基于段落对齐,然后再细化为句对丛租罩齐,很好的提高了工作效率及准确。
其次,在线对齐型和使得对齐工作变得更为简单,渗闹易操作。 - 答:仅卜兆一个文本拆嫌肯定是不够的,要有很多文本,而为了保证文本的真实性(不能自己凭型御租空捏造),所以做科学研究的时候就需要建立在语料库的基础上,所以说是基于语料库的研究。比如,我研究一个作家的语言风格,我就要建立在他创作出来的文本之上;我要研究汉语的一些语言现象,一般就要建立在平衡语料库之上,研究其他语言同样。语料库一般都会有人创建的,不需要自己做。
问:怎样创建语料库?
- 答:首先要明确建立的是单语语料库还是双语语料库,因为用到的建库软件和方法不一样,单语语料库的建立过程相对简单一些。
语料库有多种类型,确定类型的主要依据是它的梁芦研究目的和用途,这一点往往能够在语料采集的原则和方式上有所体现。有人曾经把语料库分成四种类型:⑴异质的(Heterogeneous):没有特定的语料收集原则,广泛收集并原样存橡梁带储各种语料。
⑵同质的(Homogeneous):只收集同一类内容的语料;⑶系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;⑷专用的(Specialized):只收集用于某一特定用途的语料。
除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文渣笑关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。
已经累积了大量各种类型的语料库,如:葡萄牙语料库、面向文本分类研究的中英文新闻分类语料库、路透社文本分类训练语料库、中文文本分类语料库、大开放字幕库OpenSubtitles的多语言平行语料数据(OpenSubtitles Corpus)、《圣经》双语语料库("Bible" bilingual corpus)、Short messages service( S) corpus(短消息服务( S)语料)等。
问:如何建立自己的语料库
- 答:基本上没有办法建立相应的语料库,优质的原语料是优质语料库的前提。
动态变化的语料库:大众传播媒体的情况是在不断变化的,语料库也要相应变化.(例如:1978年,中国报纸只有186种,基本上是单一的党委机关报,到1995年底,已经增茄滑加到2202种,平均期印数增加4倍,总印张增加3·5倍,报纸的品种,功能,发行都有了相当大的变化如果要科学地反应语言的流通应用情况,语料库的容量,选材,抽样等怎么可能一隐纳侍成不变呢)。
扩展资料:
语料库的分类:
1、是研究双语语料的对齐技术(Alignment),国内外学者就此提出多种策略和方法,已经出现了许多对齐双语或多语语料的程序或工具[Gale 1993];
2、是研究双语语料的各种应用,如在基于统计的机器翻译技术[Brown 1990]、基于实例的机器翻译技术[Nagao 1984],双语词典编纂[Klavans and Tzoukermann 1990]技术中,双语语料库都发挥着十分重要的作用;
3、是双语语料库的设计、采集、编码和管理问题。比较著名的语料库编码方案有TEI 文本编码标准以及CES标准,两者均基于SGML标记语言研究
指不只有一种语言的语料灶吵库。分为平行语料库和对照语料库两种。平行语料库指库中的两种或多种文本互相是对方的译文,因此可以用于翻译或者机器翻译研究;对照语料库中两种或多种语言的文本不构成对译关系,只是领域相同,主题相近。通常只能用于两种或多种语言的对比。
参考资料来源: - 答:首先要明确建立的是单语语料库还是双语语料库,因为用到的建库软件和方法不一样,单语语料库的建立过程相对简单一些。
1、单语语料库
(1)准备单语语料,将语料都转换成TXT格式,建议按一定规律给各个文档命名
(2)下载并安装AntConC软件,界面如下
(3)将准备好的文档全部导入软件,然后就可以在AntConc里检索语料了。具体使用方法可以自行百度。
2、双语做散中语料库
(1)语料准备
准备英汉对照的双语文档。可以是两个文档,其中一个英文,一个中文;也可以是英中上下对照或左右对照的单文档。无论是双文档还是单文档,都要注意原文与译文需要严格对照,这是后续软件识纯山别的重要基础。
(2)语料对齐
业内有几种主流的语料对齐工具,我个人用的最多的是Tmxmall在线对齐。
例如,英中文档的对齐效果如下,掘悉将对齐好的文档导出,存为tmx格式。
(3)在trados等CAT工具中新建翻译记忆库,把之前保存好的tmx文件导入即可。
附:关于原语料来源,一是自己翻译积累,二是权威网站获取,优质的原语料是优质语料库的前提。如果觉得自己做语料库耗时间,也可以到Tmxmall语料商城上看看别人上传的各类语料库,和其他译员交易已经建好的语料库。 - 答:1. 多做翻译,之后把翻译对齐(可以用Tmxmall做在线对齐,比较简单),对齐后的文件便是tmx记忆库格式
2. 自己到网上下载相关语料,然后做对齐,制作tmx双语文件
3. 倘若公司以前有做过的翻译语料,直接可以用Tmxmall做对齐,复用以前的翻译
4. 用TMROBOT管理语料,防止语料太乱以及语料丢失
建立语料库最大的任务就是做对齐,对齐效率越高,准确率越高,用处就越大。
Tmxmall对齐方式是先基于段落对齐,然后再细化为句对丛租罩齐,很好的提高了工作效率及准确。
其次,在线对齐型和使得对齐工作变得更为简单,渗闹易操作。 - 答:至少五年以上翻译方有意义,否则根本杯水车薪,积累的太少。单个领域的语料库没有个几万,根本用不上。