中國哲學書電子化計劃 |
維基格式及編輯指南
結構
維基區中的原典由一個或多個單位組成。每一個單位具有標題(如:「里仁」)、序號(如:「4」)以及相關內容(如:《論語里仁》篇的正文)。一般來說這些單位對應於底本中已有的區分,例如篇或卷。如果原典文獻本身較短,則維基項目會只有一個單位,單位名稱與原典名稱相同(如:「三字經」)。每一個單位應當包括所有對應的文字和子單位。例如:
維基項目標題:論語 | ||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
...
|
維基項目標題:三字經 | ||||||
---|---|---|---|---|---|---|
|
通過下述說明的方式,一個單位可以包括多數個子單位,但要避免使得單位過長:
維基項目標題:玉堂叢語 | ||||||
---|---|---|---|---|---|---|
... |
版本
為了確保各位的共同努力可以達到良好的編輯效果,每一個維基原典項目應該列出適當的早期版本作為維基電子版的底本。每當編輯維基時,維基電子版中每一個漢字應該與底本中的漢字完全一致。如果您認為底本本身有誤,而只能校正底本中的內容才能說得通,請不要直接修改維基原文使得它符合您認為正確的文字或出現於另一個版本的文字,而使得它不符合底本。遇到這種情況時,請使用下列介紹的標記,表示原底本有某些字,但需要改為另一些字。例如:
在修改維基時,若因參考圖書館中的底本而修改原文,請在「修改摘要」貼上電子圖書館對應頁面的鏈接,便利他人確認您修改的有效性。
標點符號
維基區中的原典可使用的標點符號如下:
符號 | 用法 |
---|---|
。 | 句號。用於句子與句子之間。 |
, | 逗號。用於動詞詞組之間。 |
、 | 頓號。用於名詞之間。 |
! | 感歎號。 |
? | 問號。 |
「 」 “ ” | 引號。用以包含引文。注意:提交編輯時,“和”將會被系統自動標準化為「和」。 |
『 』 ‘ ’ | 引文中的引號。注意:提交編輯時,‘和’將會被系統自動標準化為『和』。 |
【 】 | 表示其包含的文字為該段落的分類或類型(如:【疏】)。 |
《 · 》 | 書名號。當書名包括著作名和篇名時,可以在著作名稱和篇名間使用·號區分。書名號限用於指出著作時,而篇章標題本身不應該輸入書名號,因為系統會在顯示時自動增加。 |
● | 缺字號。表示電子版暫時缺少底本中存在的一個漢字(如:該字尚未被統一碼標準收入,或暫時無法輸入)。 |
□ | 表示底本本身缺少一個漢字,或者因為底本本身以某種方式指出原典在此處缺字,或因為底本在此處有損害無法辨識文字。 |
特殊功能字符
維基區資料的輸入和編輯中,個別字符具備特殊功能和意義。這些字符必須如下使用:
字符 | 用法 | 例子 | 例子將顯示為 | ||
---|---|---|---|---|---|
* | 在行首代表此行的內容是該單位中的最高層次標題。注意:單位的標題不需要這樣輸入,而只有在「標題」欄輸入即可。 | *記遊 |
| ||
** | 在行首代表此行的內容是該單位中的第二高層次標題。 | **記過合浦 |
| ||
{ } | 表示{和}之間的文字以大字顯示。一般用在註釋本的情況。 | {染於蒼則蒼,}《廣雅釋器》云:「蒼、青也。」 |
| ||
{{ }} | 表示{{和}}之間的文字是底本中的註釋,並且要以小字顯示。一般用在原典並非經典文獻的注釋本但包括註釋的情況。 | 《河圖》曰:元氣闓{{音開}}陽為天。 |
| ||
{{{ }}} | 表示{{{和}}}之間的文字是底本正文以外的註釋,例如頁邊上寫的註釋。 | 王,{{{王舊作命。改之}}}曰:烏虖,父師, |
| ||
[回車] | 段落分號。段落應該是具有完整意義的文字,不應該以「 『 : , 、等符號結束。 | ||||
| | 表示原典中應該在此處換行,但上下的內容都屬於同一個段落。 | 關關雎鳩、在河之洲。|窈窕淑女、君子好逑。 |
| ||
●=文字描述= | 用以表示電子版在此處缺一個漢字,同時提供所缺少的漢字的結構說明。 | 山林誰問●=上「髟」下「丐」=蕭蕭。 |
| ||
【 】 | 表示【和】之間的文字要反白顯示(黑色背景白色字)。使用時要與底本保持一致。 | 【指歸】 |
| ||
〖 〗 | 表示〖和〗之間的文字要畫圈。使用時要與底本保持一致。 | 〖指歸〗 |
|
上傳新原典全文的方式
當使用「上傳新資料」頁面上傳新的原典文獻時,無論原典內容的長短,請如同單位內的輸入方式輸入標題符號。上傳時,系統蔣會自動把您所輸入的最大層次的每一個標題及其相關內容變成新的獨立單位。例如,假如要上傳《論語》全文,則「上傳新資料」頁面上應該輸入:
子曰:「學而時習之,不亦說乎?...
...
子曰:「不患人之不己知,患不知人也。」
*為政
子曰:「為政以德,譬如北辰,居其所而眾星共之。」...
...
*堯曰
堯曰:「咨!爾舜!天之曆數在爾躬。...
...
這會使得系統創建一個由二十個新單位所構成的原典項目,其中每一個單位對應於《論語》中的一篇。
XML標籤
系統使用下述XML標籤以實現相關功能。大多情況下,系統會自動管理這些標籤;除特殊情況外,請不要增加或修改這些標籤。
XML碼 | 用途 |
---|---|
<scanbegin.../> | 連結文本和影印資料。 |
<scanbreak.../> | 連結文本和影印資料。 |
<scanend.../> | 連結文本和影印資料。 |
<picture.../> | 把插圖加入文本資料。 |
<character.../> | 把統一碼外的漢字加入文本資料。 |
<entity...>...</entity> | 標註文本中的命名實體(如:人名、地名等)。 |
後設資料
每一項維基區中的原典文獻有後設資料記載文獻的相關內容,這些資料可以通過原典目錄頁上的「編輯」連結顯示或修改。修改後設資料時,請注意以下方面:
標籤
「標籤」項目可輸入下述幾種標籤內容,控制原典在本站系統中的處理。除了下述表格中的標籤外,「標籤」項目不應該輸入其它任何資料。如果需要使用兩個以上的標籤,在標籤之間輸入「,」號。
標籤 | 意思 |
---|---|
TEXTDB | 該文獻是原典資料庫中的文獻,不是維基區中的文獻。維基區的文獻不應該輸入這種標籤。 |
WORKSET(urn) | 該文獻和URN urn所指的文獻屬於同一個抽象意義上的著作。urn不能和該文獻的URN相同。另外,urn所指的文獻應該是該著作的代表性文獻。 |
OCR_PRIMARY | 該文獻是通過字符識別打造的初稿,而且在資料打造時沒有其它版本。 |
OCR_SECONDARY(textid) | 該文獻是通過字符識別打造的初稿,而且在資料打造時有另一個版本(由textid表示)。 |
OCR_MATCH | 該文獻不是字符識別初稿,而是利用字符識別連結影印底本的結果。 |
OCR_FAILEDMATCH(textid) | 該文獻是通過字符識別打造的初稿,而且在資料打造時有另一個版本(由textid表示)。該文獻之所以被打造是因為當時無法自動連結另一個版本和對應的掃瞄本。 |
OCR_CORRECTED | 該文獻是通過字符識別打造的,現在校對工作已基本完成。 |
OCR_CORRECTED(nn) | 該文獻是通過字符識別打造的,現在校對工作完成了百分之nn%。 |
REDIRECT(urn) | 該文獻已被刪除並且由URN urn所代表的文獻取代。 |
FORK(urn) | 該文獻的文字內容最初是URN urn所代表的文獻的複製品。 |
PUNCTUATED | 該文獻的整個文字版都有上述說明的標點符號。 |
PUNCTUATED_OLD | 該文獻的整個文字版都有舊式標點符號。 |
ANNOTATED | 該文獻的文字版至少一個單詞有語意鏈接. |
成書年代
「成書年代」項目可直接輸入年份,或以「最早~最晚」各式(如:「101~105」)用在確切的年份不詳、有爭議等情況,表示成熟年代在最早和最晚之間。修改「成書年代」時,請在「修改摘要」中指出相關證據。
文獻、著作、著作集
在本站系統和說明中:
- 所謂「文獻(text)」是指基於某本書某一個版本的電子版(如:ctp:wb250388是基於欽定四庫全書本《尚書全解》的電子版)。
- 所謂「著作(work)」是原典在抽象意義上的概念,獨立於在任何版本中的呈現(如:「《尚書全解》」是一個著作,此著作呈現在ctp:wb250388等文獻)。
- 所謂「著作集(workset)」是一個集合,它的成員是代表相同著作的文獻(如:ctp:work:wb250388上面所列出的文獻)。
- 所謂「代表性文獻(representative text)」是著作集中被視為有代表性的成員文獻。這一般是從完整性、精確性、是否有圖文對照連結或標點符號等方面看來著作集中質量最高的文獻。
本站上最常操作的對象是文獻,例如原典數據庫和維基區中的資料都是文獻。其中不少文獻所代表的著作呈現在系統上多數的文獻中。為了記載和管理文獻和著作之間的關係,我們使用「著作集」的概念;從技術上來講,這是透過「WORKSET(著作集)」標籤實行的。 只有相似的文獻才適合用WORKSET標籤連結。兩個文獻是相似的若且唯若兩者的內容是相似的。另外,文獻中的註釋被視為文獻的一部分。因此:
- 一個有註釋的文獻和沒有註釋的文獻是不相似的。
- 兩個有不同註釋的文獻一般是不相似的。
- 註釋極少(尤其是註釋作者不署名)的情況,有註釋和沒有註釋的文獻可以是相似的。
- 兩個文獻可以有不同的書名,而仍然屬於同一個著作。
- 兩個文獻可以有相同的書名和作者,而仍然屬於兩個獨立的著作。
修改WORKSET標籤時,請留意:
- 任何文獻都只能屬於一個著作集。
- 如果文獻沒有WORKSET標籤,這代表該文獻屬於自己的著作集,由其URN導出。例如,ctp:wb153836(欽定四庫全書本《道德指歸論》)沒有WORKSET標籤,因此屬於著作集ctp:work:wb153836。一個沒有WORKSET標籤的文獻是著作集的代表性文獻。因此,代表性文獻都沒有WORKSET標籤。
- 一個文獻的WORKSET標籤不應該指出同一個文獻的URN(如:ctp:wb153836不應該有「WORKSET(ctp:wb153836)」標籤)。
- WORKSET(urn)標籤表示該文獻和urn所代表的另一個文獻都屬於相同的著作。urn所代表的文獻必須是該著作的代表性文獻,因此urn所代表的文獻本身應該沒有任何WORKSET標籤。