簡化字和繁體字的差異,是兩岸文字中的主要歧異,也是兩岸深化交流的障礙。因此,2009年在長沙召開的第五屆兩岸經貿文化論壇共同提出兩岸開發簡繁字智能轉換系統的建議。大陸不少單位開展了此項轉換系統的研制,取得了積極的成果。但轉換正確率高的一般在97%左右,達不到完全應用的要求。由國家語委有關部門牽頭,由廈門大學、教育部語用所和北師大三家聯合研制的“漢字簡繁文本智能轉換系統”的成功,達到了在實際轉換中放心使用的水平,其准確率經中國信息學會專家測試達到了99.9%,這是很難得的成績。
以前轉換准確率不能突破的瓶頸,在於簡繁字間一對多和同音代替簡化形成的少數字的對應上。前者如“團—團、糰”、“台—臺、檯、颱”﹔后者如:“裡—裡、裏”、“后—后、後”等。要准確對應,必須分清它們在不同語境中的不同含義。如“團”指事物聚合,而“糰”則是一種特別食品,在不同語境中要分別不同對應。同音代替的簡繁字對應更增加了復雜性。除簡繁對應關系外,它本身在傳承字的繁體中也是一個獨立的並未簡化的字,這些字在兩岸是一樣的,如“裡、后”。它們對應的除繁體字“裏、後”外,還與傳承字“裡、后”對應。這種情況一般就容易轉換錯誤。
要解決上述問題,必須研究一個覆蓋所有簡繁對應出現語境的語料庫,預設出不同語境中轉換的對應關系。以前未能完全突破轉換的瓶頸,主要就是這個語料庫沒有研制好,缺乏簡繁字對應關系出現不同語境的全部語料。這是一件要下大力氣才能完成的任務。這次研制的智能轉換系統就因為有這個語料庫作支撐,所以轉換正確率就大大提高了。
這次研制成的轉換系統,與過去不少轉換系統相比還有一個鮮明的特點,即它明確是為海峽兩岸交流轉換服務的,也就是大陸用的是“規范字”,轉換后與之對應的是台灣的“標准字”(也就是台灣當局法定的規范字,繁體字在台灣和香港之間就有差異)。這種簡繁字的對應問題,過去主要靠手工操作,不僅費時費力,還常易出錯。現在有了這個“漢字簡繁文本智能轉換系統”,基本上可以一鍵搞定,不僅方便,還極大地提高了正確率。
這次研制的智能轉換系統,還有一個優於過去轉換系統的地方,即它不僅可以正確轉換簡繁字,還可以轉換兩岸不同的標點符號和常用的科技術語。這可以使轉換的文本達到相互直接認同的要求,無疑提高了轉換工作的質量,拓展了轉換的空間。
該系統已免費供各需要轉換簡繁字的領域使用,真正為兩岸簡繁字文本正確、快速轉換搭建了一座金橋。
(作者系語文出版社原社長、《兩岸常用詞典》主編)
(來源:中國教育報)
【“十三五”,我們這樣走過】市場主體創新步伐堅實 “深化國有企業改革,發展混合所有制經濟,培育具有全球競爭力的世界一流企業。全面實施市場准入負面清單制度,清理廢除妨礙統一市場和公平競爭的各種規定和做法,支持民營企業發展,激發各類市場主體活力。”習近平總書記的重要論述,為激發各類市場主體活力指明了方向。“十三五”以來,在一項項惠企政策、改革措施推動下,市場主體實力越發雄厚、活力更加充沛。 【詳細】
【總書記擘畫高質量發展】共享發展,民生改善奔小康 高質量發展,是共享成為根本目的的發展。習近平總書記多次強調,“人民對美好生活的向往就是我們的奮斗目標。”疫情防控期間如何全力醫治患者拯救生命、兜牢民生底線?扶貧產業是否落地生根、易地搬遷群眾能否穩定就業?改革發展成果怎樣更多更公平惠及人民群眾?總書記在國內考察中訪民情、察民意、問民生,殷殷囑托和深切關懷體現了大黨大國領袖真摯的人民情懷。 【詳細】