在Facebook上關注我們,隨時得到最新消息 在Twitter上關注我們,隨時得到最新消息 在新浪微博上關注我們,隨時得到最新消息 在豆瓣上關注我們,隨時得到最新消息
中國哲學書電子化計劃
討論區 -> 中國哲學書電子化計劃 -> 如何處理【遠逺远】這類簡繁一字多碼?

2024-05-07 09:07:46如何處理【遠逺远】這類簡繁一字多碼?
發言者:stonechi8 (Stone Chi)以[清】金鉷《广西通志》文本爲例:
慶遠府 或 庆远府,有7个结果
慶逺府,多达120个结果
雖然這兩个繁寫,字義完全相同,而《康熙字典》作「遠:俗作逺字」。
但在《古籍漢字字頻統計》(書同文,2008年)一書里,
却有以下字頻數據:
遠 80411
逺 580489
远 10
但從字義來講,前述的三个中文詞匯,指向的是同一地方。
[清]道光《慶遠府志》封面亦作「遠」。
那麼,整理ctext典籍文本時,以通用的"慶遠府"统一更合理,還是分開更合理?
影响:
1.文本存貯仍以"慶遠府"爲准,輸入允許用「慶逺府」,但歸一化後找同樣内容。
2.文本遵從原文,檢索輸入分兩次查詢,同時合並結果顯示。
回覆

2024-05-21 05:37:21如何處理【遠逺远】這類簡繁一字多碼?
發言者:oscarsun72 (孫守真)菩薩賢友慈悲:末學以為:
1.圖文對照須忠於原著,若不忠於原著,失真彌多,且不知電腦字型加入這般文字將用在何處;圖文對照當是派得上用場的第一現場。
1.1 且圖文一致,也便於校對工作,維基本為公共編輯者,唯有以圖文一致為公共標準,才能避免各人意見之歧異。否則改過來又改回去,無窮迴圈,惡性循環,伊于胡底?
2. 有其他需求,如檢索、統計,當另作副本以與原書圖對應(本站機制是一種書圖可以對應多種文本,多種文本可幾對應到一種書圖。)
2.1 檢索需求,須由後台資料庫及程式設計機制管控。可參考迪志文化電子版《四庫全書》《四部叢刊》、中研院《漢籍全文資料庫》異體字關聯機制,便利檢索異文。
2.2 若為如樓主菩薩賢友之類的學術統計需求,則以副本、即多本對照一書圖(多對一)的方式為妥,也便於日後文本之維護。

異體字本就是數位化時的大問題,這是末學經驗所思所得。謹此獻芹。末學亦以此為準的,行於本站云爾。感恩感恩 讚歎讚歎 南無阿彌陀佛
回覆

2024-05-24 04:12:22如何處理【遠逺远】這類簡繁一字多碼?
發言者:stonechi8 (Stone Chi)遵从古籍原本字樣固然重要,但从目前實際情况看,道路仍然漫長。
另一角度,古籍傳抄錯誤已經不是什么新鮮事了,也有不少異體字也只是原作者的書寫習慣而已。如:
https://ctext.org/wiki.pl?if=en&res=221005&searchu=%F0%A9%94%96
【𩔖】(擴展B)本是【類】(基本集),前者在多數手機上顯示爲空白。

所以才有後代研究人員,對古籍進行各種校正和再版發行,如中華書局近年出的各種地方志版本,也可見于《中華經典古籍庫》(ancientbooks.cn)。

从標准來講。台灣教育部《異體字典》只有近3萬个正體字,數據中【遠】相關内容如下:
id is_zhengzi current_char Unicode
45625 TRUE 遠 U+9060
45626 FALSE 𢕱 U+22571
45627 FALSE 逺 U+903A
45628 FALSE 𨖸 U+285B8
大陸也已有GB/Z 40637-2021《古籍印刷通用字规范字形表》,定義了1萬多正體用字,本例的字只有正字【遠】

使用文字之目的是用于信息交流和認知提升,所以遵从古籍原本字樣仍需把握適當的尺度,避免在故紙堆做大量的重復工作,以下是一些具體的可能建議:
1.對于現代已整理、且已爲大眾認同的異體字,用回与古籍最接近的正體字,如原題所述的【慶逺府】,統一用現在已是常識的地名【慶遠府】,這樣可以避免保留大量的異體字、但因为没有合理的異體認同數據,在檢索時,丢失很多本該可找到的内容。這樣處理也可避免在通識領域引入大量的異體認同數據,减少系统和文字使用者的負担。
2.字書類的異體辨識中的文本,继续使用原本的異體字。
3.有存疑的,使用原本的異體字,另作註釋加以说明。
回覆

2024-05-26 04:41:11如何處理【遠逺远】這類簡繁一字多碼?
發言者:oscarsun72 (孫守真)菩薩慈悲:大帖餘未詳讀,茲僅以「漫長」一義,一抒有感:
  蓋當初以為…… 而今AI;當初軟碟,而今固態。其速與大,如有所譽,其有所試,都非幾年乃至十幾年前可以想像。切莫以一「漫長」視諸。尤有進者,如「兼容字」之存在,於今不啻一贅、笑話、徒勞、增擾……?前車之鑑,後事之師。
  唯致遠恐泥。當思長計,獨具鷹眼,莫徒務近功。儻畏難卻步時,當發慮憲:此難是當今之難,抑數年、十數年後之難耶?況異體字之關聯、檢索、對應、組織、重組(文本文脈排列組合,只消一覘本站相關文本對應功能即知。)、統計……,即使數至萬億,由今看來,根本不足掛齒、彈指可辦,況來日耶?
  此事可視若解析度或像素史來看。當初或以為高清者,而今安在?已至不止於4k、8K、12K……、百萬、千萬畫素而不慊然已……。此何故?豈不但在求真、逼真、寫真、傳真、存真……而已矣乎?愚尚惶恐於吾人今日沾沾自喜之數位典藏圖文對照,其圖象清析度及2D平面呈現,在子子孫孫看來,只是可笑之玩具而已,猶吾人今年看讀當年之影視也;尚故步自封於畏多、畏詳與精細哉?後生可畏,來者可追,人無遠慮,必有近憂。茶餘飯後,一點愚見爾爾。見笑大方。見笑見笑。 佛弟子文獻學者孫守真任真甫合十略白
回覆

2024-08-02 03:42:01如何處理【遠逺远】這類簡繁一字多碼?
發言者:oscarsun72 (孫守真)菩薩賢友慈悲:近來檢索《易》學諸關鍵字,發現諸如「兌=兑」「剝=剥」「无=無」,在本站用「无、兑、剥」檢索均可查找出「無、兌、剝」之內容,一如《漢籍全文資料庫》之異體字之機制矣。唯反之則不然,即若以「兌、無、剝」以檢索,則不會出來「兑、无、剥」的內容。可見本站自已有此機制,只是做得今女畫,不完整、未周備罷了。如有所譽,其有所試。是不為也,非不能也。指日可待,或依然故我,則反掌折枝,亦事在人為耳。感恩感恩 讚歎讚歎 南無阿彌陀佛
然則,本站有將「爲、為」等字合併之諸例,一如系統字早先設有「兼容字」之弊端,實無此必要,亦如簡化失策,徒務近功,而失文獻傳真之旨、小覷電腦日新之能耳。真正是人無遠慮必有近憂,不是不報,時候未到罷。然而造此諸業者,誰人永生,負此失責耶?
此外,本站簡易輸入方塊【簡單修改模式】在對簡化字檢覆的機制亦尚未納入AI文脈判斷,但以出現某些或特定、或一定數量之簡化字即不准輸入(submit【保存編輯】按鈕會呈現失效的狀態)亦矯枉過正。蓋許多簡化字本自古先俗字異體襲來,忠於原著,俱依其所用之字,本多有如今簡化字之字形者,而此機制不分皂白,一律過濾,是但徒增使用者之困擾,本欲利民,反為掣肘,實亦可惜焉爾。他人有心,予忖度之,從善如流,是可久大。面面俱到,是可大久。無量壽佛,所以光壽,阿彌陀佛。
回覆



若您想要參與討論,請在下述的表格輸入您的CTP賬號及密碼登錄。若您尚未申請CTP賬號,請免費註冊

登入
帳號:
密碼:
不要自動登出
忘記密碼

喜歡我們的網站請支持我們的發展網站的設計與内容(c)版權2006-2024如果您想引用本網站上的内容,請同時加上至本站的鏈接:https://ctext.org/zh。請注意:嚴禁使用自動下載軟体下載本網站的大量網頁,違者自動封鎖,不另行通知。沪ICP备09015720号-3若有任何意見或建議,請在此提出