中國哲學書電子化計劃 |
語意標記
簡介
語意標記指的是為原典文獻內容提供機器可讀的訊息,明確註明語詞在具體脈絡中的意義。這些訊息有助於電子文獻的進階自動處理,包括在本系統中給使用者顯示相關的內容。舉實例,以下段落中,具有語意標記的版本(左)可提供關於段落中提到的時間、人名和典籍的相關內容:
有語意標記 | 沒有語意標記 | ||||
---|---|---|---|---|---|
|
|
基本原則
本站中,實現語意標記的過程需要建立以下三種數據:
- 標記:一個標記一些文字(通常是一個或幾個單詞)並提供訊息表示該文字在當下脈絡中所代表的意思。例如,在「孔子適齊。」這段話中,我們可以為「孔子」這兩個字建立一個標記,表示在這句話中「孔子」所代表的意思是某一個歷史人物,即孔丘。
本站中有兩種標記:- 實體標記 - 表示對應字詞指稱某一個實體對象,如「ctext:855132(宋代歷史人物王安石)。
- 日期標記 - 表示對應字詞指稱某一個具體歷史日期或時段。日期由相關年號(或帝王),如「ctext:27110(宋真宗年號『天禧』)」,再加上日期的相關數據,如「二年正月」。
- 實體紀錄。 一個實體紀錄代表某一個體事物,包括具體事物(如:一個人、一座建築等)和抽象事物(如:某一個官位)。例如,歷史人物和虛構人物(如王安石有相關的實體紀錄;歷代著作,如《宋史也有實體紀錄;朝代,如北宋也有。實體紀錄可用以紀錄相關該實體的訊息,也用以實現文本中的標記。在上述關於「孔子」的例子中,標記會把「孔子」兩個字連接到孔子其人的實體紀錄。實體紀錄有助於讓電腦分明同名異實的事物,同時準確處理異名同實的情況。每一個實體紀錄有一個唯一辨識碼,如「ctext:27110」(表示天禧年號)。這些辨識碼可用以明確分明同名異實的食物,如「ctext:474358」表示「紹興」(宋代年號),而「ctext:63988」表示「紹興」(西遼年號)。每一個實體紀錄頁面在資料標題直下註明相關的辨識碼。
- 知識宣稱。一個知識宣稱表示有關一個實體的一件訊息;實體紀錄的內容由知識宣稱所構成。每一個知識宣稱連接著三件事物:一個主體(即該宣稱所形容的實體)、一個動詞或關係、以及該動詞或關係的對象。例如,有關王安石的一個知識宣稱會把王安石(主體)和王益(對象)透過動詞「father(父親)」連接,這樣紀錄「王安石的父親為王益」這件事。舉另一個例子,可以把王安石和官位翰林學士透過動詞「held-office(任官)」連接,紀錄「王安石曾經任過這個官位。
有時候在紀錄訊息時,會需要提供相關於該宣稱的進一步資訊。這些資訊可透過增加一個或多數的限定詞(qualifier)來實現。限定詞為知識宣稱的一部分,把該宣稱和另外兩個事物相連接:另外一個動詞(即限定詞),和另外一個相關對象。例如,雖然說王安石曾任過翰林學士是一個有效的宣稱,但如果能同時紀錄他從什麼時候開始任過此官則資訊就會更完整。在這個例子中,可以增加一個「from-date(自某時起)」的限定詞,並把相關日期作為限定詞對象,表示此事。
出處引用
大部分的知識宣稱需要提供具體的出處引用才能建立。出處引用必須採取指定格式,由兩個部分構成:一個URN代表某部書某個版本的某篇或卷,以及相關引用內容(用繁體字)。這兩個部分有「@」符號連結著,如:
- ctp:ws740739@父益,都官員外郎。:這代表文字「父益,都官員外郎。」,出現在摛藻堂四庫全書薈要本《宋史》的〈列傳第八十六〉篇。
大部分的宣稱需要引用出處作為證據,除以下的例外:
- 動詞為以下類型的宣稱:type、authority-...、或link-...: 這些一律不需要(也不應該有)出處
- 動詞為以下類型的宣稱:name:當出處說明兩個名稱指稱同一個實體時才需要提供
- 動詞為以下類型的宣稱:born(出生西曆年份)和died(去世西曆年份):這兩個動詞用以臨時性的宣稱,表示其它資料來源(如:Wikidata、Wikipedia等)中的年份記載。找到了相關證據之後,請用born-date或died-date代替,並提供機器可讀的日期和證據。
標記慣例
為了保持資料的一致性和實現資料的有效自動處理,請在標記過程中遵守以下的原則:
- 日期:如果文本中年號出現在日期前,請給年號增加一個年號標記,然後把年號後的年/月/日等字詞作為另一個標記。標記客戶端的自動標記功能有助於如此標記。
準確範例 錯誤範例 1 開慶元年二月 1 開慶元年二月 - 官名和尊號:當官名或尊號包括相關地名時,請把地名和官名或尊號合為一體標記。
準確範例 錯誤範例 1 利州節度使 1 利州節度使
日期
日期是很重要的歷史資料,在此系統中扮演重要角色。一個日期標記把文本中的日期記載(如:「二月」)和足夠相關資訊連結,使得它能夠行程一個精準的日期說明:例如,表示該「二月」指的是某年號、某年中的二月。標記客戶端提供輸入這些資訊的方法,把每一個日期記載和某一個年號相連結。大多數日期記載本身不包括年號等資訊,而讀者能通過脈絡來推出之,如以下例子中:
1 開寶九年冬十月癸丑,太祖崩,帝遂即皇帝位。乙卯,大赦,常赦所不原者咸除之。
上文第一個日期記載是完整的:它本身提供年號以外的足夠資訊,即第九年、第十月、癸丑日,明確指稱歷史上的一天。第二個記載「乙卯」則本身不重複寫「九年十月」,也不重複寫年號「開寶」,而依靠脈絡來傳達這些訊息。日期標記過程中,需要明確提供這些本來依靠脈絡的訊息,使得系統能夠準確處理所有的日期記載。
在此過程中,標記客戶端會利用上文指出最近被提到的年號、年份、和月份,但是這些推薦未必都正確。因此,在標記日期時,請務必注意脈絡中的訊息流,特別是括號型提及,以免輸入錯誤的日期訊息。例如,在下述段落中,紫色的箭頭代表真實的日期訊息流:

標記客戶端會為大多數日期準確推出資訊,例如,據上文準確推出」乙卯「指的是開寶九年十月乙卯,但在這個例子中會錯誤地推出」十一月癸亥「指的是開寶八年十一月癸亥,因為上文剛剛提到過開寶八年。在類似例子中,請留意日期的訊息流:如果不小心把」十一月癸亥「定為開寶八年,很容易影響到下文的日期,因為系統會繼續把」八年「訊息往下流,錯誤地推出」甲子「和」庚午「也指八年而不是九年。尤其在史書中,這類錯誤很容易引發一連串的錯誤,因為大部分的日期資訊依靠上文脈絡傳達。
有語意標記的文本
每一種文獻只要對其中一個版本加上標記。一般情況下,這應該是該資料的代表性文獻。
以下的文獻和版本已經有部分標記。如果想要加上新的語意標記,請使用這些版本:
二十五史
其它史書
- 資治通鑑
- 續資治通鑑
- 廿二史劄記
- 十六國春秋
- 十六國春秋別傳
- 宋史紀事本末
- 明史紀事本末
- 欽定平定台灣紀略
- 曾文正公年譜
- 鴉片事略
- 庚子國變記
- 大越史記全書
- 越史略
- 三國史記
- 全唐文
- 全上古三代秦漢三國六朝文
- 十國春秋