中文轉碼資料及技術
[1]開放中文轉換 (Opencc Project): https://code.google.com/p/opencc/ google code 主頁 https://github.com/BYVoid/opencc-web/blob/master/views/intro.md github 主頁
Opencc Project 提供了相對於 Word 較先進的轉碼,明顯有投入第三級轉換,並聲稱解決了約 90%「一對多」的問題,但仍未能完善處理中醫文獻。
「開放中文轉換」系統是由開發者經整合多個字庫和對應碼系統而成,對「簡 繁體」和「異體字」及「地區字」的理解均比 wikipedia 深刻。相對於 wikipedia 的列表中的一些問題也有所修正。也似乎有一些第四級轉換的痕跡,但待查證。
[2]Wikipedia 中有關一簡多繁字的歸納表
http://zh.wikipedia.org/wiki/%E7%B0%A1%E7%B9%81%E8%BD%89%E6%8F%9B%E4 %B8%80%E5%B0%8D%E5%A4%9A%E5%88%97%E8%A1%A8
Wikipedia 屬公開式百科,集合眾人之力而寫成,面度闊,資料充足,但對 多個字型間的解釋並未充足。此外,由於是大眾人力的投入,對人口較少地區的 兼顧和總結比較不足。另,Wikipedia 亦有「因簡化字而被逼變更的地名」舉例表:
http://zh.wikipedia.org/zh-tw/%E5%9B%A0%E4%B8%AD%E5%9B%BD%E6%B1%89% E5%AD%97%E7%AE%80%E5%8C%96%E8%80%8C%E6%9B%B4%E5%90%8D%E7%9A %84%E5%9C%B0%E5%90%8D%E5%88%97%E8%A1%A8
[3] Word 简繁转换中易错字识别更正工具
http://xiangyata.net/data/articles/f03/686.html
本功具是 Word 中易錯字識別更正工具,提高工作效率。但由於此工具只是舊版本的更新,仍屬小修小補,對整體幫助始終有限,僅提供未能升級者。
[4]Convert-Z http://www.softking.com.tw/soft/clickcount.asp?fid3=1763 正簡轉碼轉碼軟體,特色是可以為檔案名進行批次換碼,方便解決簡體檔案 名無法在正體系統打開的問題。
[5]Unicode 中《易經》六十四卦的數字代碼 http://www.unicode.org/charts/PDF/U4DC0.pdf Unicode 6.0 版後增加了《易經》六十四卦圖象進入字庫 在輸入 Unicode 四位數碼後,如 4DC0,選取後按 Alt+X ,即可轉換成乾卦圖象䷀。 如經常使用,可把圖象與輸入法中的「自定義輸入」結連,更為方便。但能正確 輸入的前題是字型能支持,現階段需人工更新內建字庫才可達。《易經》八卦圖 象在較舊版本系統中亦可輸入,方法同樣,不贅。另外,字型除 Unifonts 外,還 可選用「八卦字體」。
[6]http://www.pkucn.com/thread-262493-1-1.html Unifonts 6.0 (跟 Unicode 沒有任何官方關係,但字型上與 unicode 6.0 同步) 本字型與 Unicode 6.0 同步,支援「CJK-ext B / C / D」,比 Win xp,甚至 WIN 7 的 內建字庫完滿相當多,也能支持《易經》六十四卦的字符。但非官方產品,使用時 敬請注意。
[7] 北大中文論壇-中文信息處理版塊 http://www.pkucn.com/forum-29-1.html
[8]中州韻輸入法引擎 https://code.google.com/p/rimeime/ 中州韻輸入法是一個跨平台,支持多種輸入法的程式,支持拼音、雙拼、註 音、五筆、倉頡等所有音碼和形碼輸入法。特點是對音碼的選字作出了相對先進 的第四級調整,使輸入時軟件能以非常高的準確率選擇不同的同音字。此外,能 輸出的生僻字均比一般輸入法要高和準確。
[9]中日韓越統一表意文字: 介紹中日韓越統一表意文字體(CJK)。 http://zh.wikipedia.org/wiki/%E4%B8%AD%E6%97%A5%E9%9F%93%E8%B6%8 A%E7%B5%B1%E4%B8%80%E8%A1%A8%E6%84%8F%E6%96%87%E5%AD%97
[10]日中韓辭典數據庫 http://www.cjk.org/cjk/indext.htm 致力研究及改善日中韓換碼及其字型等相關問題的機購。
[11] 《基於對照表以及語言模型之簡繁字體轉換》 http://www.aclweb.org/anthology-new/O/O10/O10-1008.pdf 在學理上對簡繁字轉換作深入的探討。
[12]台灣-教育部異體字字典
http://140.111.1.40/ 可以查閱字的歷代異體書寫,並具有相關古文獻的書影,詳盡易用。
[13]漢字構形資料庫 http://cdp.sinica.edu.tw/cdphanzi/ 相當豐富有關漢字構形及轉碼的資料和文章。 [14]日本-文字鏡研究會 http://www.mojikyo.org / 日本的文字鏡研究會開發「今昔文字鏡」軟件系統,選字後能以 RTF 方式輸 入文檔,最新版本支持約十五萬種漢字字符,字庫量非常大,如「攝」「揣」「務」 亦包含。亦可輸入象形文字及甲骨文等,如「蔘」「蚰」「鍬」「勲」「追」等。
[15]開心逍遙筆輸入法 http://xiazai.zol.com.cn/detail/16/151364.shtml http://www.ksense.com/ 手寫筆或鼠標寫字軟體,可輸入約七萬種漢字字符,解決生僻字無法拆碼和 部首選字費時的問題。如「够」、「尐」、「弎」、「尀」等。搜狗拼音輸入法中的手 寫擴展,正是由開心逍遙筆提供,選用其擴展功能即可。
Comments