This document specifies the basic requirements, processing flow, service contents and data security for bilingual parallel corpus processing services.
This document is applicable to the digital bilingual corpus processing service, which takes the source language text and the target language text as objects and takes the text as the expression form. This document may also be referenced for the corpus processing of other digital texts, and it is also applicable to the evaluation of corpus alignment tools.
1. 范圍
本標準規定了雙語平行語料加工服務的術語和定義、基本要求、加工流程、服務內容和數據安全等內容。
本標準適用于以原文和譯文為對象的、以文字為表達形式的數字化雙語語料加工服務,其他數字化文本的語料加工也可參照使用,也適用于對語料對齊工具的評價。
2. 規范性引用文件
下列文件對于本文件的應用是必不可少的。凡是注日期的引用文件,僅所注日期的版本適用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。
GB/T 4894 信息與文獻 術語
GB/T 13000 信息技術 通用多八位編碼字符集(UCS)
GB 18030 信息技術 中文編碼字符集
GB/T 19000 質量管理體系 基礎和術語
GB/T 19363.1-2008 翻譯服務規范 第1部分:筆譯
GB/T 25000.51 系統與軟件工程 系統與軟件質量要求和評價(SQuaRE) 第51部分:就緒可用軟件產品(RUSP)的質量要求和測試細則
GB/T 31219.2-2014 圖書館館藏資源數字化加工規范 第2部分:文本資源
ISO 639: Code for the representation of names of languages
ISO/IEC 646: Information Technology — ISO 7-bit coded character set for information interchange (ASCII)
ISO 8601-2004: Data elements and interchange formats — Information interchange — Representation of dates and times
3. 術語和定義
下列術語和定義適用于本文件。
3.1
文本 text
以字符、符號、詞、短語、段落、句子、表格或其他字符排列形成的數據,用于表達意義,其解釋基本上取決于讀者對于某種自然語言或人工語言的知識。
[GB/T 4894 -2009, 定義4.1.1.2.4]
3.2
語料 corpus
語言材料或資料。
3.3
雙語平行語料 bilingual parallel corpus
由兩種語言構成,并在篇章、段落、句子或其他級別平行對齊的語料(3.2)。
3.4
原文 source language text
源語言文本(3.1)。
[GB/T 19363.1 -2008,定義3.4]
3.5
譯文 target language text
目標語言文本(3.1)。
[GB/T 19363.1 -2008,定義3.5]
3.6
客戶 client
接受按其要求提供產品或服務的個人或組織。
[參考GB/T 19000-2016, 定義 3.2.4,改寫]
3.7
元數據metadata
關于數據的內容、質量、狀況和其他特性的描述性數據。
3.8
服務提供方 service provider
提供服務的個人或組織。
3.9
光學字符識別 optical character recognition
簡稱OCR,自動識別通過掃描儀、數碼相機、攝像機等得到的圖像中的字符,便于存儲、編輯和檢索。
[GB/T 31219.2-2014, 定義3.4]
3.10
TMX, Translation Memory eXchange
翻譯記憶交換的標準格式。
3.11
語料對齊 corpus alignment
將雙語語料(3.2)進行篇章、段落、句子或其他級別的對齊,構成平行對照的形式。
3.12
語料對齊工具 corpus alignment tool
用于將雙語文本對齊,并能制作成雙語平行語料(3.3)的工具。
3.13
糾正 correction
為消除已發現的不合格內容所采取的措施。
[GB/T 19000-2016, 定義 3.12.3]
3.14
脫敏 de-identification
去除可確認個人或組織身份的數據與數據主體之間聯系的過程。
[ISO/TS 25237:2008,定義3.18]
3.15
敏感信息 sensitive information
如果公開或者濫用會造成潛在危害的信息。
[參考GB/T 4894-2009,定義4.7.3.2.4,改寫]
3.16
匿名化數據 anonymized data
去除直接涉及數據主體的個人或組織數據。
[參考GB/T 4894-2009,定義4.7.3.2.3,改寫]
4. 總則
4.1 雙語平行語料加工服務是將客戶提供的原文和譯文的文本內容按段落、句子或其他級別建立對應關系的一種服務。
4.2 雙語平行語料加工服務的目的是獲取雙語對齊的文本資料,為計算機輔助翻譯、機器翻譯和語言學研究提供基礎數據。
4.3 雙語平行語料加工的對象包括原文、譯文和加工文本的元數據。
4.4 雙語平行語料加工服務提供方(以下簡稱“服務提供方”)對譯文不進行審核,譯文質量由客戶保證。
4.5 雙語平行語料加工服務可以采用多個工具完成,也可以在一個集成環境中完成。該環境應集成對齊、元數據采集等功能,以適應雙語平行語料加工服務的需要。
5. 基本要求
5.1 服務提供方
服務提供方應具備以下條件:
a) 建立完備的語料加工流程體系,包括但不限于數據預處理、語料對齊、項目管理、質量審核等;
b) 配備合格的語料加工人員;
c) 配備穩定可用的語料對齊工具及相關文字處理工具;
d) 配備可完成語料加工服務的場所。
5.2 語料加工人員
服務提供方應確保雙語平行語料加工人員具備以下能力:
a) 閱讀源語言和目標語言的能力:能理解源語言和目標語言,并能快速閱讀原文和譯文;
b) 研究和處理文本的能力:能拓展必要的文本處理及專業知識,并能制定策略來有效利用現有資源;
c) 技術能力:利用技術資源,包括使用工具和信息系統支撐整個語料加工過程,完成其中的各項技術任務。
注:雙語平行語料加工人員的培訓見附錄A。
5.3 服務環境
服務提供方的服務環境應擁有完成雙語語料加工所需的技術設備和辦公設備,如光學識別工具、對齊工具等。客戶可與服務提供方約定加工時使用的工具名稱和版本。
服務提供方的保密環境及級別應符合客戶對語料保密的要求,按客戶的要求配備保密設備、進行安全加固、為語料加工人員開展保密培訓等。
5.4 加工內容
雙語語料應由客戶提供,語料可來自正式出版物、公司內部資料、網站等。
雙語語料的加工應優先選擇數字化后的雙語語料,尚未數字化的雙語語料,可通過掃描或拍照等手段,后采用光學字符識別的方式轉換成數字化形式,或直接通過鍵盤錄入。
通過光學字符識別或鍵盤錄入的雙語語料應增加校對環節保證內容的質量。
5.5 加工結果
5.5.1 完整性
在符合客戶數據處理要求的前提下,服務提供方的加工結果應保證原文、譯文及元數據的完整性,確保加工結果無信息丟失。
注:雙語加工的元數據見附錄B。
5.5.2 準確性
在符合客戶數據處理要求的前提下,服務提供方的加工結果應保證原文和譯文對應關系的準確性以及元數據的準確性,確保加工結果準確無誤。
注:雙語加工的元數據見附錄B。
5.5.3 可用性
服務提供方應保證加工結果符合以下要求:
a) 能被語料檢索、管理和生產工具解析;
b) 無亂碼、多余標簽等不可用信息;
c) 無格式混亂或原文譯文不對應情況;
d) 無用戶未要求的多余信息。
5.5.4 規范性
服務提供方的加工結果應符合客戶的規范要求,加工結果的數據格式應包括TMX、TXT等,并符合以下要求:
a) TMX文件應符合翻譯記憶庫交換規范,包含留存版本號、編碼格式、制作語料的工具名稱、制作時間、雙語語言編碼等元數據信息;
b) TXT文件應采用一種常見的大字符集的編碼格式,如UTF-8。
注:TXT文件常見編碼格式見附錄C,TMX格式規范見附錄D。
5.6 語料加工工具
語料對齊是雙語平行語料加工的關鍵環節,因此語料對齊工具作為語料加工工具的重要組成部分,應滿足以下可靠性、易用性和兼容性三方面要求。