中国哲学书电子化计划 | |
简体字版 |
语意标记
简介
语意标记指的是为原典文献内容提供机器可读的讯息,明确注明语词在具体脉络中的意义。这些讯息有助于电子文献的进阶自动处理,包括在本系统中给使用者显示相关的内容。举实例,以下段落中,具有语意标记的版本(左)可提供关于段落中提到的时间、人名和典籍的相关内容:
有语意标记 | 没有语意标记 | ||||
---|---|---|---|---|---|
|
|
基本原则
本站中,实现语意标记的过程需要建立以下三种数据:
- 标记:一个标记一些文字(通常是一个或几个单词)并提供讯息表示该文字在当下脉络中所代表的意思。例如,在「孔子适齐。」这段话中,我们可以为「孔子」这两个字建立一个标记,表示在这句话中「孔子」所代表的意思是某一个历史人物,即孔丘。
本站中有两种标记:- 实体标记 - 表示对应字词指称某一个实体对象,如“ctext:855132(宋代历史人物王安石)。
- 日期标记 - 表示对应字词指称某一个具体历史日期或时段。日期由相关年号(或帝王),如“ctext:27110(宋真宗年号‘天禧’)”,再加上日期的相关数据,如“二年正月”。
- 实体纪录。 一个实体纪录代表某一个体事物,包括具体事物(如:一个人、一座建筑等)和抽象事物(如:某一个官位)。例如,历史人物和虚构人物(如王安石有相关的实体纪录;历代著作,如《宋史也有实体纪录;朝代,如北宋也有。实体纪录可用以纪录相关该实体的讯息,也用以实现文本中的标记。在上述关于“孔子”的例子中,标记会把“孔子”两个字连接到孔子其人的实体纪录。实体纪录有助于让电脑分明同名异实的事物,同时准确处理异名同实的情况。每一个实体纪录有一个唯一辨识码,如“ctext:27110”(表示天禧年号)。这些辨识码可用以明确分明同名异实的食物,如“ctext:474358”表示“绍兴”(宋代年号),而“ctext:63988”表示“绍兴”(西辽年号)。每一个实体纪录页面在资料标题直下注明相关的辨识码。
- 知识宣称。一个知识宣称表示有关一个实体的一件讯息;实体纪录的内容由知识宣称所构成。每一个知识宣称连接著三件事物:一个主体(即该宣称所形容的实体)、一个动词或关系、以及该动词或关系的对象。例如,有关王安石的一个知识宣称会把王安石(主体)和王益(对象)透过动词“father(父亲)”连接,这样纪录“王安石的父亲为王益”这件事。举另一个例子,可以把王安石和官位翰林学士透过动词“held-office(任官)”连接,纪录“王安石曾经任过这个官位。
有时候在纪录讯息时,会需要提供相关于该宣称的进一步资讯。这些资讯可透过增加一个或多数的限定词(qualifier)来实现。限定词为知识宣称的一部分,把该宣称和另外两个事物相连接:另外一个动词(即限定词),和另外一个相关对象。例如,虽然说王安石曾任过翰林学士是一个有效的宣称,但如果能同时纪录他从什么时候开始任过此官则资讯就会更完整。在这个例子中,可以增加一个“from-date(自某时起)”的限定词,并把相关日期作为限定词对象,表示此事。
出处引用
大部分的知识宣称需要提供具体的出处引用才能建立。出处引用必须采取指定格式,由两个部分构成:一个URN代表某部书某个版本的某篇或卷,以及相关引用内容(用繁体字)。这两个部分有“@”符号连结著,如:
- ctp:ws740739@父益,都官员外郎。:这代表文字“父益,都官员外郎。”,出现在摛藻堂四库全书荟要本《宋史》的〈列传第八十六〉篇。
大部分的宣称需要引用出处作为证据,除以下的例外:
- 动词为以下类型的宣称:type、authority-...、或link-...: 这些一律不需要(也不应该有)出处
- 动词为以下类型的宣称:name:当出处说明两个名称指称同一个实体时才需要提供
- 动词为以下类型的宣称:born(出生西历年份)和died(去世西历年份):这两个动词用以临时性的宣称,表示其它资料来源(如:Wikidata、Wikipedia等)中的年份记载。找到了相关证据之后,请用born-date或died-date代替,并提供机器可读的日期和证据。
标记惯例
为了保持资料的一致性和实现资料的有效自动处理,请在标记过程中遵守以下的原则:
- 日期:如果文本中年号出现在日期前,请给年号增加一个年号标记,然后把年号后的年/月/日等字词作为另一个标记。标记客户端的自动标记功能有助于如此标记。
准确范例 错误范例 1 开庆元年二月 1 开庆元年二月 - 官名和尊号:当官名或尊号包括相关地名时,请把地名和官名或尊号合为一体标记。
准确范例 错误范例 1 利州节度使 1 利州节度使
日期
日期是很重要的历史资料,在此系统中扮演重要角色。一个日期标记把文本中的日期记载(如:“二月”)和足够相关资讯连结,使得它能够行程一个精准的日期说明:例如,表示该“二月”指的是某年号、某年中的二月。标记客户端提供输入这些资讯的方法,把每一个日期记载和某一个年号相连结。大多数日期记载本身不包括年号等资讯,而读者能通过脉络来推出之,如以下例子中:
1 开宝九年冬十月癸丑,太祖崩,帝遂即皇帝位。乙卯,大赦,常赦所不原者咸除之。
上文第一个日期记载是完整的:它本身提供年号以外的足够资讯,即第九年、第十月、癸丑日,明确指称历史上的一天。第二个记载“乙卯”则本身不重复写“九年十月”,也不重复写年号“开宝”,而依靠脉络来传达这些讯息。日期标记过程中,需要明确提供这些本来依靠脉络的讯息,使得系统能够准确处理所有的日期记载。
在此过程中,标记客户端会利用上文指出最近被提到的年号、年份、和月份,但是这些推荐未必都正确。因此,在标记日期时,请务必注意脉络中的讯息流,特别是括号型提及,以免输入错误的日期讯息。例如,在下述段落中,紫色的箭头代表真实的日期讯息流:

标记客户端会为大多数日期准确推出资讯,例如,据上文准确推出”乙卯“指的是开宝九年十月乙卯,但在这个例子中会错误地推出”十一月癸亥“指的是开宝八年十一月癸亥,因为上文刚刚提到过开宝八年。在类似例子中,请留意日期的讯息流:如果不小心把”十一月癸亥“定为开宝八年,很容易影响到下文的日期,因为系统会继续把”八年“讯息往下流,错误地推出”甲子“和”庚午“也指八年而不是九年。尤其在史书中,这类错误很容易引发一连串的错误,因为大部分的日期资讯依靠上文脉络传达。
有语意标记的文本
每一种文献只要对其中一个版本加上标记。一般情况下,这应该是该资料的代表性文献。
以下的文献和版本已经有部分标记。如果想要加上新的语意标记,请使用这些版本:
二十五史
其它史书
- 资治通鉴
- 续资治通鉴
- 廿二史札记
- 十六国春秋
- 十六国春秋别传
- 宋史纪事本末
- 明史纪事本末
- 钦定平定台湾纪略
- 曾文正公年谱
- 鸦片事略
- 庚子国变记
- 大越史记全书
- 越史略
- 三国史记
- 全唐文
- 全上古三代秦汉三国六朝文
- 十国春秋