Subscribe for Updates

  • Facebook Social Icon
  • LinkedIn Social Icon

Copyrighted by www.lamchunpong.com

中文轉碼資料及技術

January 14, 2016

[1]開放中文轉換 (Opencc Project):
https://code.google.com/p/opencc/       google code    主頁
https://github.com/BYVoid/opencc-web/blob/master/views/intro.md    github 主頁

Opencc Project 提供了相對於 Word 較先進的轉碼,明顯有投入第三級轉換,並聲稱解決了約 90%「一對多」的問題,但仍未能完善處理中醫文獻。

「開放中文轉換」系統是由開發者經整合多個字庫和對應碼系統而成,對「簡
繁體」和「異體字」及「地區字」的理解均比 wikipedia 深刻。相對於 wikipedia
的列表中的一些問題也有所修正。也似乎有一些第四級轉換的痕跡,但待查證。

 

[2]Wikipedia 中有關一簡多繁字的歸納表

http://zh.wikipedia.org/wiki/%E7%B0%A1%E7%B9%81%E8%BD%89%E6%8F%9B%E4
%B8%80%E5%B0%8D%E5%A4%9A%E5%88%97%E8%A1%A8

Wikipedia 屬公開式百科,集合眾人之力而寫成,面度闊,資料充足,但對
多個字型間的解釋並未充足。此外,由於是大眾人力的投入,對人口較少地區的
兼顧和總結比較不足。另,Wikipedia 亦有「因簡化字而被逼變更的地名」舉例表:

http://zh.wikipedia.org/zh-tw/%E5%9B%A0%E4%B8%AD%E5%9B%BD%E6%B1%89%
E5%AD%97%E7%AE%80%E5%8C%96%E8%80%8C%E6%9B%B4%E5%90%8D%E7%9A
%84%E5%9C%B0%E5%90%8D%E5%88%97%E8%A1%A8

[3] Word 简繁转换中易错字识别更正工具

http://xiangyata.net/data/articles/f03/686.html

本功具是 Word 中易錯字識別更正工具,提高工作效率。但由於此工具只是舊版本的更新,仍屬小修小補,對整體幫助始終有限,僅提供未能升級者。

[4]Convert-Z
http://www.softking.com.tw/soft/clickcount.asp?fid3=1763
正簡轉碼轉碼軟體,特色是可以為檔案名進行批次換碼,方便解決簡體檔案
名無法在正體系統打開的問題。

 

[5]Unicode 中《易經》六十四卦的數字代碼
http://www.unicode.org/charts/PDF/U4DC0.pdf
Unicode 6.0 版後增加了《易經》六十四卦圖象進入字庫
在輸入 Unicode 四位數碼後,如 4DC0,選取後按 Alt+X ,即可轉換成乾卦圖象䷀。
如經常使用,可把圖象與輸入法中的「自定義輸入」結連,更為方便。但能正確
輸入的前題是字型能支持,現階段需人工更新內建字庫才可達。《易經》八卦圖
象在較舊版本系統中亦可輸入,方法同樣,不贅。另外,字型除 Unifonts 外,還
可選用「八卦字體」。

 

[6]http://www.pkucn.com/thread-262493-1-1.html
Unifonts 6.0 (跟 Unicode 沒有任何官方關係,但字型上與 unicode 6.0 同步)
本字型與 Unicode 6.0 同步,支援「CJK-ext B / C / D」,比 Win xp,甚至 WIN 7 的
內建字庫完滿相當多,也能支持《易經》六十四卦的字符。但非官方產品,使用時
敬請注意。

 

[7] 北大中文論壇-中文信息處理版塊
http://www.pkucn.com/forum-29-1.html

 

[8]中州韻輸入法引擎
https://code.google.com/p/rimeime/
中州韻輸入法是一個跨平台,支持多種輸入法的程式,支持拼音、雙拼、註
音、五筆、倉頡等所有音碼和形碼輸入法。特點是對音碼的選字作出了相對先進
的第四級調整,使輸入時軟件能以非常高的準確率選擇不同的同音字。此外,能
輸出的生僻字均比一般輸入法要高和準確。

[9]中日韓越統一表意文字:
介紹中日韓越統一表意文字體(CJK)。
http://zh.wikipedia.org/wiki/%E4%B8%AD%E6%97%A5%E9%9F%93%E8%B6%8
A%E7%B5%B1%E4%B8%80%E8%A1%A8%E6%84%8F%E6%96%87%E5%AD%97

 

[10]日中韓辭典數據庫
http://www.cjk.org/cjk/indext.htm
致力研究及改善日中韓換碼及其字型等相關問題的機購。

 

[11] 《基於對照表以及語言模型之簡繁字體轉換》
http://www.aclweb.org/anthology-new/O/O10/O10-1008.pdf
在學理上對簡繁字轉換作深入的探討。

 

[12]台灣-教育部異體字字典

http://140.111.1.40/
可以查閱字的歷代異體書寫,並具有相關古文獻的書影,詳盡易用。

 

[13]漢字構形資料庫
http://cdp.sinica.edu.tw/cdphanzi/
相當豐富有關漢字構形及轉碼的資料和文章。
[14]日本-文字鏡研究會
http://www.mojikyo.org /
日本的文字鏡研究會開發「今昔文字鏡」軟件系統,選字後能以 RTF 方式輸
入文檔,最新版本支持約十五萬種漢字字符,字庫量非常大,如「攝」「揣」「務」
亦包含。亦可輸入象形文字及甲骨文等,如「蔘」「蚰」「鍬」「勲」「追」等。

 

[15]開心逍遙筆輸入法
http://xiazai.zol.com.cn/detail/16/151364.shtml
http://www.ksense.com/
手寫筆或鼠標寫字軟體,可輸入約七萬種漢字字符,解決生僻字無法拆碼和
部首選字費時的問題。如「够」、「尐」、「弎」、「尀」等。搜狗拼音輸入法中的手
寫擴展,正是由開心逍遙筆提供,選用其擴展功能即可。

Please reload