2007年9月11日 星期二

異體字表的研究

漢字是許多學問的基礎,在研究漢文佛典的領域也是如此。因為漢文佛典都是古文,因此有不少漢字上的資料要特別研究,漢字可研究的範圍有很多,例如字典相關資料整理、漢字在各國漢文字集的轉換(例如 big5 碼換成 JIS 碼)、繁體簡體互換……等等,而目前正在研究的問題就是「異體字」。

「異體字」目前主要是為了全文檢索的需求而研究,因為漢字一字多形的異體字情況不少,在佛典中混用的情況也很多,例如「饑」與「飢」,二者在某方面可視為異體字,這二字音同義近,二者可能都出現在佛典中,可能有些佛典寫「饑餓」,有些則寫「飢餓」,若使用者想同時找到這二者而不會錯過另一半,異體字表的建立就是第一步工作。

饑的解釋:http://140.111.1.40/yitia/fra/fra04612.htm
飢的解釋:http://140.111.1.40/yitia/fra/fra04582.htm

研究了一些異體字的資料,目前收集如下:

1. 在 unicode 網站的 unihan 資料庫中有不少資料,網址為:http://www.unicode.org/charts/unihan.html,站上有純文字檔可以下載,下載後就可以自己做資料庫了,不過這部份的異體字聽說還不是佷多。

2. 日本京都大學安岡孝一先生也整理了異體字表,可在此網址找到:http://kanji.zinbun.kyoto-u.ac.jp/~yasuoka/CJK.html,這也是純文字檔,除了異體字表,也有各種內碼轉換表可供參考。

此「漢字袋」網站可做一些查詢:http://www.kanji.zinbun.kyoto-u.ac.jp/~yasuoka/kanjibukuro/

3. 漢語大字典異體字表,網址為:http://char.ndap.org.tw/variants/home.html,其中資料亦不少,不過若能至中研究文獻處理實驗室(http://www.sinica.edu.tw/~cdp/)下載漢字構字型資料庫,裡面有更新的資料可供利用。

4. 中研院還有一個「電腦漢字字形、異體字及詞彙整合知識庫」,網址為:http://chardb.iis.sinica.edu.tw/charDB3/index.htm,裡面的資料很豐富,不過也很複雜。

以上第四項中研院的太複雜,不易處理,我大概會以前三者整理為主,未來除了做為全文檢索的異體字工具之外,也希望能加到「漢字工具」(下載處:http://www.cbeta.org/download/tool.htm)這支程式中。

沒有留言: