在Facebook上關注我們,隨時得到最新消息 在Twitter上關注我們,隨時得到最新消息 在新浪微博上關注我們,隨時得到最新消息 在豆瓣上關注我們,隨時得到最新消息
中國哲學書電子化計劃

字符識別

字符識別對具體文字記載進行抽象化。

本站主要收錄以兩種不同模式表示的電子資料:第一是以數位化字符表示,第二是以影印圖案的方式表示的內容。數位化字符(如:原典資料庫和維基區上的文獻)可打字輸入、複製、貼上、檢索等;影印圖案(如:電子圖書館中的影印資料)則雖不能像數位化字符那樣處理,但能完整地反映文獻實際的原貌。

這兩種模式各有其長,只使用其中之一不足以達到所有目的。

所謂字符識別(OCR)指的是把以圖案方式表示的文字轉換成以文字方式表示的自動程序。本站把字符識別應用到中國歷代傳世文獻(如:四庫全書等文獻),以便提供更方便的查詢方法。

利用字符識別連結影印底本

圖像和文字之間的關係。

當數位化字符的原典文字版及其相關底本的影印本並存時,電腦可以透過字符識別把已有的文字版中的文字和影印本的對應頁面自動作出連結。連結之後,可以提供文字版和影印本之間的圖文對照,方便查詢影印底本,確認文字版的準確性。

當一段原文有這些訊息時,系統會在段落左手邊顯示圖標。點擊此圖標就會打開電子圖書館中的相關頁面。若要突顯其中個別的字詞,請先在文字版中檢索,再點擊影印本圖標。

字符識別原始資料

進行字符識別而沒有對應的文字版時,可以利用字符識別打造文字版的初稿。一般情況下,尤其是當傳世文獻影印本的內容不清楚或有損壞、缺漏等情況時,所得出的文字版可能會有不少錯字。

儘管如此,透過字符識別而得出的文字版初稿有一個好處,就是文字版的每一行字和影印本底本的相關頁面已經有連結。因此雖然文字版初稿包含錯字,它仍然可以提供一種方法在影印本中快速地檢索文字內容或確定文字版的準確與否。

與上述的情況同樣,點擊段落左手邊所顯示的圖標就可以進入電子圖書館中的對應頁面。若要突顯其中個別字詞,請先在文字版中檢索,再點擊影印本圖標。

檢索具有字符識別連結的原點文獻

所有具有連結的原點文獻,無論是通過自動連結還是原始文字識別初稿,在本站上都以普通文字版的方式展現,因此其基本檢索方法與其他原典相同。已連結文獻的優點在於當使用者通過檢索或瀏覽的方法進入到原典的某一特定部分時,即可立即跳至電子圖書館對應頁面的掃描版。

檢索有字符識別連結的原點時,要先找到原典數據庫、維基區或圖書館中的相關資料:例如,圖書館中的資料絕大部分都已經至少有一項已連接的資料。查到資料之後,就可以瀏覽資料內容:原典數據庫或維基區的資料,可按卷、篇等瀏覽;圖書館中的資料可按頁、卷、篇(若有)瀏覽。在具有影印連結的原典進行全文檢索時,檢索結果會以一般的方式顯示。點擊段落左手旁的圖標即可跳至圖書館中對應頁面,並突顯所檢索的字詞。

例如,假設在維基區中已檢索并得出下述結果:

點擊圖標將會跳至電子圖書館中的對應頁面:

糾正錯字

簡單修改模式

當文字版有影印本連結的時候,可以直接從圖書館的相關頁面上作出文字版的修正。點擊圖文對照右下的「簡單修改」連結,系統就會以簡單化的方式顯示該頁對應的文字版內容。

在「簡單修改」模式中,每一行文字對應於影印本中的一欄文字,而分段號以"<p>"表示。請不要在「簡單修改」模式中增加下面所提及的其它符號或代碼。

例如,上面圖中頁面的對應「簡單修改模式」如下:

完整修改模式

經過字符識別而打造的原典初稿存放於網站的維基區,以便使用者集體參與校改和編輯活動。以下會介紹與字符識別相關的編輯情況。如果您沒有編輯過本站維基區中的文獻,請先參考維基區的使用說明,再閱讀下面的介紹。

維基區使用特別的編碼把原典文獻的文字和對應的影印資料相連結。相關的編碼如下:

功能範例說明
影印頁首<scanbegin file="1234" page="5" y="6" />代表此編碼後出現的文字為影印資料中某一頁在電子版中第一個對應的文字。如果有"y"項目,項目值表示第一個對應文字在影印資料中從頁首算往下多少漢字的距離。
影印頁尾<scanend file="1234" page="5" />代表此編碼前出現的文字為影印資料中某一頁在電子版中最後一個對應的文字。
影印頁分欄<scanbreak file="1234" y="1" />代表此編碼後出現的文字在影印資料中出現在新的一欄。如果有"y"項目,項目值表示第一個對應文字在影印資料中從頁首算往下多少漢字的距離。
欄中空格<scanskip file="1234" y="1" />代表此編碼後出現的文字在影印資料中離前面的文字往下算幾個漢字的距離。"y"項目值代表往下多少漢字的距離。
一般情況下,沒有必要修改這些編碼本身的內容,因此除非十分了解編碼的細節,請不要編輯編碼中的內容。另外,請不要對尚未與影印本自動連結的原典手動增加編碼。

假如在維基區中編輯上述所引用的頁面,則會顯示如下(圖案中,使用者已選擇了頁面對應內容以突顯對應部分):

局限性

為了對盡可能多的原典文獻達到盡可能高的準確性,在進行字符識別的過程中系統會對影印文獻結構做出一些預設。這些預設提高對大部分文獻核心内容的準確度,但同時意味著其它幾種訊息或頁面結構無法正確識別。目前這些無法識別的内容包括:

因此,影印文獻包括此類内容時,文字識別所打造的初稿可能會不正確。大多數情況(如:封面頁、圖像等),文字版不需要包括這些訊息,因此把識別錯誤所引入的内容刪除即可。