This document specifies the basic requirements, processing flow, service contents and data security for bilingual parallel corpus processing services.
This document is applicable to the digital bilingual corpus processing service, which takes the source language text and the target language text as objects and takes the text as the expression form. This document may also be referenced for the corpus processing of other digital texts, and it is also applicable to the evaluation of corpus alignment tools.
1. 范围
本标准规定了双语平行语料加工服务的术语和定义、基本要求、加工流程、服务内容和数据安全等内容。
本标准适用于以原文和译文为对象的、以文字为表达形式的数字化双语语料加工服务,其他数字化文本的语料加工也可参照使用,也适用于对语料对齐工具的评价。
2. 规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅所注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 4894 信息与文献 术语
GB/T 13000 信息技术 通用多八位编码字符集(UCS)
GB 18030 信息技术 中文编码字符集
GB/T 19000 质量管理体系 基础和术语
GB/T 19363.1-2008 翻译服务规范 第1部分:笔译
GB/T 25000.51 系统与软件工程 系统与软件质量要求和评价(SQuaRE) 第51部分:就绪可用软件产品(RUSP)的质量要求和测试细则
GB/T 31219.2-2014 图书馆馆藏资源数字化加工规范 第2部分:文本资源
ISO 639: Code for the representation of names of languages
ISO/IEC 646: Information Technology — ISO 7-bit coded character set for information interchange (ASCII)
ISO 8601-2004: Data elements and interchange formats — Information interchange — Representation of dates and times
3. 术语和定义
下列术语和定义适用于本文件。
3.1
文本 text
以字符、符号、词、短语、段落、句子、表格或其他字符排列形成的数据,用于表达意义,其解释基本上取决于读者对于某种自然语言或人工语言的知识。
[GB/T 4894 -2009, 定义4.1.1.2.4]
3.2
语料 corpus
语言材料或资料。
3.3
双语平行语料 bilingual parallel corpus
由两种语言构成,并在篇章、段落、句子或其他级别平行对齐的语料(3.2)。
3.4
原文 source language text
源语言文本(3.1)。
[GB/T 19363.1 -2008,定义3.4]
3.5
译文 target language text
目标语言文本(3.1)。
[GB/T 19363.1 -2008,定义3.5]
3.6
客户 client
接受按其要求提供产品或服务的个人或组织。
[参考GB/T 19000-2016, 定义 3.2.4,改写]
3.7
元数据metadata
关于数据的内容、质量、状况和其他特性的描述性数据。
3.8
服务提供方 service provider
提供服务的个人或组织。
3.9
光学字符识别 optical character recognition
简称OCR,自动识别通过扫描仪、数码相机、摄像机等得到的图像中的字符,便于存储、编辑和检索。
[GB/T 31219.2-2014, 定义3.4]
3.10
TMX, Translation Memory eXchange
翻译记忆交换的标准格式。
3.11
语料对齐 corpus alignment
将双语语料(3.2)进行篇章、段落、句子或其他级别的对齐,构成平行对照的形式。
3.12
语料对齐工具 corpus alignment tool
用于将双语文本对齐,并能制作成双语平行语料(3.3)的工具。
3.13
纠正 correction
为消除已发现的不合格内容所采取的措施。
[GB/T 19000-2016, 定义 3.12.3]
3.14
脱敏 de-identification
去除可确认个人或组织身份的数据与数据主体之间联系的过程。
[ISO/TS 25237:2008,定义3.18]
3.15
敏感信息 sensitive information
如果公开或者滥用会造成潜在危害的信息。
[参考GB/T 4894-2009,定义4.7.3.2.4,改写]
3.16
匿名化数据 anonymized data
去除直接涉及数据主体的个人或组织数据。
[参考GB/T 4894-2009,定义4.7.3.2.3,改写]
4. 总则
4.1 双语平行语料加工服务是将客户提供的原文和译文的文本内容按段落、句子或其他级别建立对应关系的一种服务。
4.2 双语平行语料加工服务的目的是获取双语对齐的文本资料,为计算机辅助翻译、机器翻译和语言学研究提供基础数据。
4.3 双语平行语料加工的对象包括原文、译文和加工文本的元数据。
4.4 双语平行语料加工服务提供方(以下简称“服务提供方”)对译文不进行审核,译文质量由客户保证。
4.5 双语平行语料加工服务可以采用多个工具完成,也可以在一个集成环境中完成。该环境应集成对齐、元数据采集等功能,以适应双语平行语料加工服务的需要。
5. 基本要求
5.1 服务提供方
服务提供方应具备以下条件:
a) 建立完备的语料加工流程体系,包括但不限于数据预处理、语料对齐、项目管理、质量审核等;
b) 配备合格的语料加工人员;
c) 配备稳定可用的语料对齐工具及相关文字处理工具;
d) 配备可完成语料加工服务的场所。
5.2 语料加工人员
服务提供方应确保双语平行语料加工人员具备以下能力:
a) 阅读源语言和目标语言的能力:能理解源语言和目标语言,并能快速阅读原文和译文;
b) 研究和处理文本的能力:能拓展必要的文本处理及专业知识,并能制定策略来有效利用现有资源;
c) 技术能力:利用技术资源,包括使用工具和信息系统支撑整个语料加工过程,完成其中的各项技术任务。
注:双语平行语料加工人员的培训见附录A。
5.3 服务环境
服务提供方的服务环境应拥有完成双语语料加工所需的技术设备和办公设备,如光学识别工具、对齐工具等。客户可与服务提供方约定加工时使用的工具名称和版本。
服务提供方的保密环境及级别应符合客户对语料保密的要求,按客户的要求配备保密设备、进行安全加固、为语料加工人员开展保密培训等。
5.4 加工内容
双语语料应由客户提供,语料可来自正式出版物、公司内部资料、网站等。
双语语料的加工应优先选择数字化后的双语语料,尚未数字化的双语语料,可通过扫描或拍照等手段,后采用光学字符识别的方式转换成数字化形式,或直接通过键盘录入。
通过光学字符识别或键盘录入的双语语料应增加校对环节保证内容的质量。
5.5 加工结果
5.5.1 完整性
在符合客户数据处理要求的前提下,服务提供方的加工结果应保证原文、译文及元数据的完整性,确保加工结果无信息丢失。
注:双语加工的元数据见附录B。
5.5.2 准确性
在符合客户数据处理要求的前提下,服务提供方的加工结果应保证原文和译文对应关系的准确性以及元数据的准确性,确保加工结果准确无误。
注:双语加工的元数据见附录B。
5.5.3 可用性
服务提供方应保证加工结果符合以下要求:
a) 能被语料检索、管理和生产工具解析;
b) 无乱码、多余标签等不可用信息;
c) 无格式混乱或原文译文不对应情况;
d) 无用户未要求的多余信息。
5.5.4 规范性
服务提供方的加工结果应符合客户的规范要求,加工结果的数据格式应包括TMX、TXT等,并符合以下要求:
a) TMX文件应符合翻译记忆库交换规范,包含留存版本号、编码格式、制作语料的工具名称、制作时间、双语语言编码等元数据信息;
b) TXT文件应采用一种常见的大字符集的编码格式,如UTF-8。
注:TXT文件常见编码格式见附录C,TMX格式规范见附录D。
5.6 语料加工工具
语料对齐是双语平行语料加工的关键环节,因此语料对齐工具作为语料加工工具的重要组成部分,应满足以下可靠性、易用性和兼容性三方面要求。