在Facebook上關注我們,隨時得到最新消息 在Twitter上關注我們,隨時得到最新消息 在新浪微博上關注我們,隨時得到最新消息 在豆瓣上關注我們,隨時得到最新消息
中國哲學書電子化計劃

相似段落

簡介

本站所謂「相似段落」是指同一部原典或不同原典中具有相同或相似用詞的文字串,長度從幾個字至完整段落。相似段落包括明確引用(如:一篇原典引用《詩》,今本《詩經》也包括相同或相似的文字),也包括非明確引用(如:《墨子·所染》篇和《呂氏春秋·當染》篇都以非常相似的文字表達描述相同的內容)。

學者早已注意到早期文獻中的這種現象,以及它對更進一步了解文獻內容的利用價值。大體上相同的相似段落之間,內容往往會有所差異,而這些差異卻可以提供關於原典成書歷史的線索,不僅可以作為校勘過程中的證據,也能夠幫助我們更深入地了解不同原典文獻之間的關係。

為了便利相似段落的研究,中國哲學書電子化計劃網站提供一個與原典數據庫合為一體的相似段落數據庫,其中已包括數十萬項相似段落。絕大部分的內容來自於本站所開發自動找出相似段落的軟件。目前數據庫的範圍包括所有先秦兩漢原典以及《太平御覽》、《群書治要》、《世說新語》、《顏氏家訓》、《文心雕龍》、《抱朴子》、《人物志》、《金樓子》、《水經注》、《神仙傳》、《三國志》、《高士傳》、《藝文類聚》、《意林》、《太平廣記》正文(目前不含注文)。

使用說明

[Screenshot]
《莊子·逍遙遊》第一段中的相似段落。

由於相似段落現象在中國的早期原典中非常普遍,因此在先秦兩漢文獻中,大部分的段落或多或少具有與其它段落的相似性。當原典段落在數據庫中有任何相似段落時,系統會在其左手邊顯示「相似段落圖標」()。點擊此圖標就會列出所有相關的相似段落。

在相似段落的顯示頁面最上面,系統以視覺化方式概括所選段落中與其它原典所有相似的部分。其中相似部分以不同色調的紅色顯示,色調越深則表示該段落所屬的相似段落組越多。點擊紅色部分即可跳至相關相似段落列單。

在相似段落頁面上,把鼠標移到任何相似段落之上,系統將會突顯此段落與其它相關段落之間的差異。鼠標下的段落中用紅色字體突顯其它段落所缺少的文字;其它段落中用綠色字體突顯滑鼠下段落中尚未出現的文字。若想要回復突顯前的狀態,只要在段落外點雙擊滑鼠即可。若以《禮三本》第一段為例子,把游標移到《大戴禮記》的段落上,系統將會突顯文字「禮有三本」,因為此四字在《史記》的相關段落中尚未出現。另外,「生」字也以紅色字體突顯,是因為「生」字在《荀子》的段落中作「性」。然而,把滑鼠移到《荀子》的段落上看《史記》的段落,唯有「則」字以紅色字體突顯,是因為《史記》中除「則」字以外所有的字詞都在《荀子》的段落中出現。

另外,相似段落訊息也可以透過高級搜索功能檢索。

感謝大家的支持

相似段落功能的開發具有較大的挑戰性;開發和維持此功能花了不少時間、努力和金錢。然而,本人樂意免費為大家開放這些資料,便利所有人使用--尤其是學生和獨立研究者,與校內人士不同,使用收費資料未必方便。非常歡迎自願的使用者捐款支持;在此向所有已捐款的人士表示感謝,有你們的支持我才能夠開發這種新的功能。

大規模分析

詳情請參考相關文章(英文)。關係網絡資料下載(GraphViz各式):http://stats.ctext.org/misc/preqinhan.gv

相關研究成果

Donald Sturgeon. (Forthcoming). Unsupervised Identification of Text Reuse in Early Chinese Literature. Digital Scholarship in the Humanities.

在研究過程中使用到本數據庫的資料時,敬請各位註明資料來源