在Facebook上关注我们,随时得到最新消息 在Twitter上关注我们,随时得到最新消息 在新浪微博上关注我们,随时得到最新消息 在豆瓣上关注我们,随时得到最新消息
中国哲学书电子化计划
简体字版

相似段落

简介

本站所谓“相似段落”是指同一部原典或不同原典中具有相同或相似用词的文字串,长度从几个字至完整段落。相似段落包括明确引用(如:一篇原典引用《诗》,今本《诗经》也包括相同或相似的文字),也包括非明确引用(如:《墨子·所染》篇和《吕氏春秋·当染》篇都以非常相似的文字表达描述相同的内容)。

学者早已注意到早期文献中的这种现象,以及它对更进一步了解文献内容的利用价值。大体上相同的相似段落之间,内容往往会有所差异,而这些差异却可以提供关于原典成书历史的线索,不仅可以作为校勘过程中的证据,也能够帮助我们更深入地了解不同原典文献之间的关系。

为了便利相似段落的研究,中国哲学书电子化计划网站提供一个与原典数据库合为一体的相似段落数据库,其中已包括数十万项相似段落。绝大部分的内容来自于本站所开发自动找出相似段落的软件。目前数据库的范围包括所有先秦两汉原典以及《太平御览》、《群书治要》、《世说新语》、《颜氏家训》、《文心雕龙》、《抱朴子》、《人物志》、《金楼子》、《水经注》、《神仙传》、《三国志》、《高士传》、《艺文类聚》、《意林》、《太平广记》正文(目前不含注文)。

使用说明

[Screenshot]
《庄子·逍遥游》第一段中的相似段落。

由于相似段落现象在中国的早期原典中非常普遍,因此在先秦两汉文献中,大部分的段落或多或少具有与其它段落的相似性。当原典段落在数据库中有任何相似段落时,系统会在其左手边显示“相似段落图标”()。点击此图标就会列出所有相关的相似段落。

在相似段落的显示页面最上面,系统以视觉化方式概括所选段落中与其它原典所有相似的部分。其中相似部分以不同色调的红色显示,色调越深则表示该段落所属的相似段落组越多。点击红色部分即可跳至相关相似段落列单。

在相似段落页面上,把鼠标移到任何相似段落之上,系统将会突显此段落与其它相关段落之间的差异。鼠标下的段落中用红色字体突显其它段落所缺少的文字;其它段落中用绿色字体突显滑鼠下段落中尚未出现的文字。若想要回复突显前的状态,只要在段落外点双击滑鼠即可。若以《礼三本》第一段为例子,把游标移到《大戴礼记》的段落上,系统将会突显文字“礼有三本”,因为此四字在《史记》的相关段落中尚未出现。另外,“生”字也以红色字体突显,是因为“生”字在《荀子》的段落中作“性”。然而,把滑鼠移到《荀子》的段落上看《史记》的段落,唯有“则”字以红色字体突显,是因为《史记》中除“则”字以外所有的字词都在《荀子》的段落中出现。

另外,相似段落讯息也可以透过高级搜索功能检索。

感谢大家的支持

相似段落功能的开发具有较大的挑战性;开发和维持此功能花了不少时间、努力和金钱。然而,本人乐意免费为大家开放这些资料,便利所有人使用--尤其是学生和独立研究者,与校内人士不同,使用收费资料未必方便。非常欢迎自愿的使用者捐款支持;在此向所有已捐款的人士表示感谢,有你们的支持我才能够开发这种新的功能。

大规模分析

详情请参考相关文章(英文)。关系网络资料下载(GraphViz各式):http://stats.ctext.org/misc/preqinhan.gv

相关研究成果

Donald Sturgeon. (Forthcoming). Unsupervised Identification of Text Reuse in Early Chinese Literature. Digital Scholarship in the Humanities.

在研究过程中使用到本数据库的资料时,敬请各位注明资料来源