在Facebook上关注我们,随时得到最新消息 在Twitter上关注我们,随时得到最新消息 在新浪微博上关注我们,随时得到最新消息 在豆瓣上关注我们,随时得到最新消息
中国哲学书电子化计划
简体字版

语意标记

简介

语意标记指的是为原典文献内容提供机器可读的讯息,明确注明语词在具体脉络中的意义。这些讯息有助于电子文献的进阶自动处理,包括在本系统中给使用者显示相关的内容。举实例,以下段落中,具有语意标记的版本(左)可提供关于段落中提到的时间、人名和典籍的相关内容:

有语意标记没有语意标记
1 夏四月乙巳吕夷简上《景佑法宝新录》。甲子吕夷简王曾宋绶蔡齐罢,以王随门下侍郎同中书门下平章事昭文馆大学士陈尧佐同中书门下平章事集贤殿大学士盛度知枢密院事韩亿程琳石中立参知政事王鬷同知枢密院事
1 夏四月乙巳,吕夷简上《景佑法宝新录》。甲子,吕夷简、王曾、宋绶、蔡齐罢,以王随为门下侍郎、同中书门下平章事、昭文馆大学士,陈尧佐同中书门下平章事、集贤殿大学士,盛度知枢密院事,韩亿、程琳、石中立参知政事,王鬷同知枢密院事。

基本原则

本站中,实现语意标记的过程需要建立以下三种数据:

  1. 标记:一个标记一些文字(通常是一个或几个单词)并提供讯息表示该文字在当下脉络中所代表的意思。例如,在「孔子适齐。」这段话中,我们可以为「孔子」这两个字建立一个标记,表示在这句话中「孔子」所代表的意思是某一个历史人物,即孔丘
    本站中有两种标记:
    • 实体标记 - 表示对应字词指称某一个实体对象,如“ctext:855132(宋代历史人物王安石)。
    • 日期标记 - 表示对应字词指称某一个具体历史日期或时段。日期由相关年号(或帝王),如“ctext:27110(宋真宗年号‘天禧’)”,再加上日期的相关数据,如“二年正月”。
  2. 实体纪录。 一个实体纪录代表某一个体事物,包括具体事物(如:一个人、一座建筑等)和抽象事物(如:某一个官位)。例如,历史人物和虚构人物(如王安石有相关的实体纪录;历代著作,如《宋史也有实体纪录;朝代,如北宋也有。实体纪录可用以纪录相关该实体的讯息,也用以实现文本中的标记。在上述关于“孔子”的例子中,标记会把“孔子”两个字连接到孔子其人的实体纪录。实体纪录有助于让电脑分明同名异实的事物,同时准确处理异名同实的情况。每一个实体纪录有一个唯一辨识码,如“ctext:27110”(表示天禧年号)。这些辨识码可用以明确分明同名异实的食物,如“ctext:474358”表示“绍兴”(宋代年号),而“ctext:63988”表示“绍兴”(西辽年号)。每一个实体纪录页面在资料标题直下注明相关的辨识码。
  3. 知识宣称。一个知识宣称表示有关一个实体的一件讯息;实体纪录的内容由知识宣称所构成。每一个知识宣称连接著三件事物:一个主体(即该宣称所形容的实体)、一个动词或关系、以及该动词或关系的对象。例如,有关王安石的一个知识宣称会把王安石(主体)和王益(对象)透过动词“father(父亲)”连接,这样纪录“王安石的父亲为王益”这件事。举另一个例子,可以把王安石和官位翰林学士透过动词“held-office(任官)”连接,纪录“王安石曾经任过这个官位。
    有时候在纪录讯息时,会需要提供相关于该宣称的进一步资讯。这些资讯可透过增加一个或多数的限定词(qualifier)来实现。限定词为知识宣称的一部分,把该宣称和另外两个事物相连接:另外一个动词(即限定词),和另外一个相关对象。例如,虽然说王安石曾任过翰林学士是一个有效的宣称,但如果能同时纪录他从什么时候开始任过此官则资讯就会更完整。在这个例子中,可以增加一个“from-date(自某时起)”的限定词,并把相关日期作为限定词对象,表示此事。

出处引用

大部分的知识宣称需要提供具体的出处引用才能建立。出处引用必须采取指定格式,由两个部分构成:一个URN代表某部书某个版本的某篇或卷,以及相关引用内容(用繁体字)。这两个部分有“@”符号连结著,如:

引用出处时,请选择作为相关宣称的证据的完整语句或部分语句。上下文脉络不需要引用,因为系统会把引用内容连结到它脉络中的出处。

大部分的宣称需要引用出处作为证据,除以下的例外:

标记惯例

为了保持资料的一致性和实现资料的有效自动处理,请在标记过程中遵守以下的原则:

日期

日期是很重要的历史资料,在此系统中扮演重要角色。一个日期标记把文本中的日期记载(如:“二月”)和足够相关资讯连结,使得它能够行程一个精准的日期说明:例如,表示该“二月”指的是某年号、某年中的二月。标记客户端提供输入这些资讯的方法,把每一个日期记载和某一个年号相连结。大多数日期记载本身不包括年号等资讯,而读者能通过脉络来推出之,如以下例子中:

1 开宝九年冬十月癸丑太祖崩,帝遂即皇帝位。乙卯,大赦,常赦所不原者咸除之。

上文第一个日期记载是完整的:它本身提供年号以外的足够资讯,即第九年、第十月、癸丑日,明确指称历史上的一天。第二个记载“乙卯”则本身不重复写“九年十月”,也不重复写年号“开宝”,而依靠脉络来传达这些讯息。日期标记过程中,需要明确提供这些本来依靠脉络的讯息,使得系统能够准确处理所有的日期记载。

在此过程中,标记客户端会利用上文指出最近被提到的年号、年份、和月份,但是这些推荐未必都正确。因此,在标记日期时,请务必注意脉络中的讯息流,特别是括号型提及,以免输入错误的日期讯息。例如,在下述段落中,紫色的箭头代表真实的日期讯息流:

标记客户端会为大多数日期准确推出资讯,例如,据上文准确推出”乙卯“指的是开宝九年十月乙卯,但在这个例子中会错误地推出”十一月癸亥“指的是开宝八年十一月癸亥,因为上文刚刚提到过开宝八年。在类似例子中,请留意日期的讯息流:如果不小心把”十一月癸亥“定为开宝八年,很容易影响到下文的日期,因为系统会继续把”八年“讯息往下流,错误地推出”甲子“和”庚午“也指八年而不是九年。尤其在史书中,这类错误很容易引发一连串的错误,因为大部分的日期资讯依靠上文脉络传达。

有语意标记的文本

每一种文献只要对其中一个版本加上标记。一般情况下,这应该是该资料的代表性文献

以下的文献和版本已经有部分标记。如果想要加上新的语意标记,请使用这些版本:

二十五史

  1. 史记
  2. 汉书
  3. 后汉书
  4. 三国志
  5. 晋书
  6. 宋书
  7. 南齐书
  8. 梁书
  9. 陈书
  10. 魏书
  11. 北齐书
  12. 周书
  13. 南史
  14. 北史
  15. 隋书
  16. 旧唐书
  17. 新唐书
  18. 旧五代史
  19. 新五代史
  20. 宋史
  21. 辽史
  22. 金史
  23. 元史
  24. 明史
  25. 清史稿

其它史书

书目、目录等