看板: BudaTech ◎ 佛典電子化討論    板主: HeavenChow
閱讀文章: 第 1503/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回
發信人: Heavenchow@Lion (Heaven), 信區: BudaTech
標  題: CBETA 0924電子報--標記語言
發信站: 獅子吼站 (Sun Sep 26 15:58:30 1999)
轉信站: Lion

===========《 CBETA E-News 中華電子佛典協會新聞電子報 》============
1999-09-24   第五期       http://ccbs.ntu.edu.tw/cbeta
====================================================================
——————————————〉專題報導〈——————————————
=================================================標記語言的應用=====

標記語言的應用(二)
—————————————————————————————————
簡介學術版XML標記──以《般若波羅蜜多心經》為例(上)
                                                     CBETA研發組撰
一、前言
二、標記符號的設定
三、標記符號的應用
  1. 經文的標記
  2. 校勘條目 vs <app> (Apparatus Entry)
  3.《般若波羅蜜多心經》學術版XML電子檔範例
四、結語
附件:學術版XML之DTD的設定
—————————————————————————————————

一、前言
  在佛典電子化的過程中,如果僅僅只是做文字的電子化,那便喪失了原
來書本資料所擁有的許多寶貴資訊,例如:經名、年代、作者、譯者、校勘
等等。因此 CBETA的大正藏電子化工作,使用XML(eXtensible Markup
Language) 標記技術將這些寶貴的資訊記錄下來,以便後續進行更廣泛的學
術研究應用。

  XML 是一個允許使用者自訂標記的語言,佛教經典是否能有一套共同的
標準標記,以利將來的資訊交換?CBETA採用國際標準TEI (Text Encoding
and Interchange),TEI 是針對電子文獻所制定的標準標記組(tag set),
透過使用國際標準標記,使 CBETA製作的電子佛典更便於國際間分享。

  然而,由於 TEI並不是針對中文文獻所設計的,在 CBETA的實做過程中,
發現仍然有許多標記是 TEI所未提供的,於是我們採用這樣的策略:儘量採
用 TEI標準的標記,在 TEI裏實在找不到適用的標記,便嘗試著自己制定適
用於中文佛典的標記。期待 CBETA這樣的工作,能為未來佛典的標準標記有
所貢獻。

  以下就延續簡單標記的介紹,說明CBETA學術版XML佛典電子化的文件標
準標記。

二、標記符號的設定

  CBETA學術版XML所用的標記符號有下列數種:

<header>:表示一經電子檔的開頭。
<title>:表示經文等的標題。
<trailer>:表示卷終的經題。
<app>:Apparatus Entry,表示底本與異本之容器,含<lem>,<rdg>。
<lem>:Lemma,表示底本的文字,在wit屬性(Witness)記錄版本的名稱。可
      包含一組以上的<app>標記定型式。
<rdg>:Reading,表示異本的文字,在wit屬性記錄版本的名稱。只允許<note>
      及<p>二種標記。
<div1>:Text Division,在經文中把它看成是一部經文的完整內容。可包含
      一組以上的<app>標記定型式。
<juan>:表示「卷」(juan)。可包含一組以上的<app>標記定型式。
<jhead>:表示「卷」(juan)的開頭(head)。
<byline>:表示「作者」、「譯者」等。可包含一組以上的<app>標記定型式。
<head>:表示一經中的「品」名。可包含一組以上的<app>標記定型式。
<p>:Paragraph,表示經文的一個「段落」。可包含一組以上的<app>標記定
型式。
<pb>:Page Break,表示「欄」。
<lb>:Line Break,表示每行的行首資訊。
<lg>:Line Group,表示一首「偈頌」之容器,含<l>。
<l>:Verse Line,表示一句四言、五言、七言或九言的「偈頌」。
<fan>:表示反切音之容器,含<zi>,<yin>。
<zi>:表示反切音解的目的字。
<yin>:表示反切音解的音。
<note>:表示「注」。
<corr>:Correction,表示訂正。
&lac; :表示經文「缺」某字。
<skgloss>:表示梵語之容器,含有<gloss>,<term>。
<gloss>:表示梵語。
<term>:表示漢語詞。可包含一組以上的<app>標記定型式。

三、標記符號的應用

1. 經文的標記

  CBETA學術版所用的標記甚多,不能一一介紹,在這裡首先以唐玄奘所譯
的《般若波羅蜜多心經》為例,簡略介紹給大家認識。

【<div1>】(Text Division)
如前所言,<div1>在經文中把它看成是一部經文的完整內容。其屬性(type)
可分為:「經」(<div1 type="juan">)和「品」(<div1 type="pin">)二種。
以《般若波羅蜜多心經》為例,如下所示。

【XML電子檔】:

<lb n="0848c04"/><div1 type="jing"><title>般若波羅蜜多心經</title>
……
<lb n="0848c24"/><trailer><title>般若波羅蜜多心經</title></trailer>
</div1>

【<byline>】
  表示「作者」(<byline type="Author">)、「譯者」(<byline type="
Translator">)等。

【XML電子檔】:

<lb n="0848c06"/>< byline type="Translator">唐三藏法師玄奘譯</byline>

【<p>】(Paragraph)

<p>(Paragraph)表示經文的一個「段落」。其屬性有「夾注」(<p type="inline">
...</p>)、「卷末附文」(<p type="w">...</p>)、「咒」(<p type="dharani">...
</p>)等。

【XML電子檔】:

<p><lb n="0848c07"/>觀自在菩薩。
……
<lb n="0848c23"/>菩提<app n="084807">
            <lem>僧莎</lem>
                        <rdg wit="【三】">薩婆</rdg>
                   </app>訶
</p>

【<pb>】(Page Break)與【<lb>】(Line Break)
  大正藏經文中,一頁有上中下三欄,每欄二十九行。在XML電子檔中,
以<pb>表示「欄」。以<lb>表示每行的行首資訊。如下所示:

<pb ed="T" id="T08.0251.0848c" n="0848c"/>
<lb n="0848c01"/>
<lb n="0848c02"/>
<lb n="0848c03"/>
<lb n="0848c04"/></div1><div1 type="jing">
<head><skgloss n="084801">
               <gloss>Praj&ntilde;&amacron;p&amacron;ramit&amacron;
           h&rdotblw;daya(A.小).</gloss>
                <term><title>般若波羅蜜多心經</title></term>
</skgloss>
</head>


2. 校勘條目 vs <app> (Apparatus Entry)

A. 【<app>】標記定型式

  除了認識 CBETA學術版經文中的標記外,有一組重要的標記定型式,大
家非得知道不可,那就是標記校勘條目的<app>標記定型式。
  經文中或有一筆一條校勘條目、或有一筆二條校勘條目、或有一筆三條
校勘條目,在XML電子檔中都以<app>標記定型式來呈現校勘條目的內容,如
下所示:

【標記定型式】:

<app>
<lem>...</lem>
<rdg wit=【?】>...</rdg>
<app>

  其中<lem>...</lem>標記大正藏的經文字。<rdg wit=【?】>...</rdg>
標記其他版本的校勘字。而<rdg wit=【?】>...</rdg>可能有多筆,視情況
決定。【?】表示版本名,如宋元明三本表示【三】,聖本表示【聖】,宮
本表示【宮】等。在標記<juan>、<byline>、<head>、<p>和<skgloss>等,
可包含一組以上的<app>標記定型式。

B.【&lac;】(缺)

  在介紹<app>標記定型式之前,首先必須瞭解「&lac;」的用法。
大正藏的校勘條目有時以「+」表示其他版本多了某字,以「-」表示大正
藏少了某字,在XML電子檔往往以「&lac;」適時的表示該筆校勘條目的內容,
「&lac;」即「缺」意。

C.【<app>】標記定型式的應用

  大正藏的校勘略符,有提到「作(various reading)」、「無(omit;
diest)」、「有(add)」、「下同與*」和「漢梵語詞」等校勘資訊,以下就
《般若波羅蜜多心經》為例,一一介紹。

【作(various reading)】
  經文中,一筆的校勘條目,就是甲字作乙字。如《般若波羅蜜多心經》
的 T08.251.848c的「菩提[07]僧莎訶」的「僧莎」二字,宋元明三本作「薩
婆」二字。

【大正藏】:
經文           菩提[07]僧莎訶
校勘條目        [07]僧莎=薩婆【三】

【XML電子檔】:
        <lb n="0848c23"/>菩提<app n="084807">
                                <lem>僧莎</lem>
                                <rdg wit="【三】">薩婆</rdg>
                           </app>


【有(add)】
  《般若波羅蜜多心經》的T08.251.848c的「[02]唐三藏」,大正藏有「唐」
字,但是宋本少了「唐」字。在XML電子檔中,以<lem>標記「唐」字,同時將
<rdg wit="【宋】">&lac;</rdg>寫成「&lac;」,「&lac;」即「缺」意,表
示在宋本《般若波羅蜜多心經》少了「唐」字。

【大正藏】:
經文(譯者)   [02]唐三藏法師玄[03]奘譯
校勘條目        [02]〔唐〕-【宋】
        [03]奘+(奉詔)【三】

【XML電子檔】:
        <lb n="0848c06"/>
      <byline>
                <app n="084802">
              <lem>唐</lem>
                  <rdg wit="【宋】">&lac;</rdg>
                </app>三藏法師玄奘<app n="084803">
                                   <lem>&lac;</lem>
                                   <rdg wit="【三】">奉詔</rdg>
                                 </app>譯
             </byline>

【無(omit;diest)】
  同例如上所示,經文中的「玄[03]奘譯」三字,大正藏少了「奉詔」二
字,宋元明三本作「玄奘奉詔譯」五字。在XML電子檔中,以<lem>標記「&lac;」,
「&lac;」即「缺」意,在<rdg wit="【三】">奉詔</rdg>標記宋元明三本
的《般若波羅蜜多心經》多了「奉詔」二字。

【下同與*】
  大正藏經文中經常可以在經文中或校勘條目中看到「*」的校勘符號或
「下同」二字的注明。在大正藏略符中,「*」的校勘符號表示「下同」
(so below, so above)的意思。經文或校勘條目中有時用「*」,有時用
「下同」二字。
  在XML電子檔中,以<app>標記第一筆的校勘字,如果第二筆的校勘字出
現「*」,就得重覆第一筆的校勘條目之資訊。如《般若波羅蜜多心經》
「揭[04]帝揭[05] 帝」的「帝」字,宋元明三本作「諦」字,該「帝」字
在下一句「般羅揭*帝」出現,該「帝」字卻以「*」表示,此時以校勘代
碼「n="y084801"」表示這「*」在這一頁(T08.251.848c)是第一個「*」
的校勘碼,並重複校勘碼[05]的校勘資訊。

【大正藏】:

經文        揭[04]帝揭[05]帝   般羅揭*帝……
校勘條目  [05]帝=諦【三】*

【XML電子檔】:

<p type="dharani"><lb n="0848c22"/>……揭帝揭
  <app n="084805">
    <lem>帝</lem>
        <rdg wit="【三】*">諦</rdg>
  </app>……

……羅揭<app n="y084801">
          <lem>帝</lem>
          <rdg wit="【三】">諦</rdg>
        </app>……

【中梵語詞】
        如果遇到有中梵語詞對照的校勘條目,其標記有一定的形式,如上
所述<skgloss>表示梵語之容器,含有<gloss>,<term>。<gloss>置放梵語
詞。<term> 置放漢語詞,在<term>中可包含一組以上的<app>標記定型式。

【標記定型式】:
<skgloss n="?">
  <gloss>(梵語)</gloss>
        <term>
                <app n="?">
                         <lem>...</lem>
                        <rdg wit="【?】">...</rdg>
                 </app>
    </term>
</skgloss>


【大正藏】:
經文            [01]般若波羅蜜多心經
校勘條目        [01] Praj&ntilde;&amacron;p&amacron;ramit&amacron;
                     h&rdotblw;daya(A.小)

【XML電子檔】:
<lb n="0848c04"/></div1><div1 type="jing">
<head>
<skgloss n="084801">
<gloss>
Praj&ntilde;&amacron;p&amacron;ramit&amacron; &rdotblw;daya(A.小).
</gloss>
<term>
<title>般若波羅蜜多心經</title>
</term>
</skgloss>

<待續>
====================================================================
          【 CBETA E-News 中華電子佛典協會新聞電子報】
                      http://ccbs.ntu.edu.tw/cbeta
  台北市朱崙街36號303室   TEL:(02)8773-6469    FAX:(02)8773-6470
  取消 newsletter 請使用瀏覽器連線到:
  http://ccbs.ntu.edu.tw/cgi-bin/cbinto.pl?goal=news/index.htm
  輸入你的電子郵件帳號,選擇「刪除」並確定按鈕即可。
====================================================================

--
◇   若言下相應   即共論佛義     若實不相應   合掌令歡喜   ◇
◇   此宗本無諍   諍即失道意     執逆諍法門   自性入生死   ◇
◇   南無 本師釋迦牟尼佛          南無 護法韋馱尊天菩薩    ◇
卍 歡迎光臨 [鹿苑] 五明學館 : buddha.nsysu.edu.tw          卍
卍 歡迎光臨中華電子佛典協會 : http://ccbs.ntu.edultw/cbeta 卍
Ξ 獅子吼站 版面介紹:                                          cbs.ntu.edu.tw
 學佛心得‧酸甜苦辣留言版 - 釋放心靈的塵埃                      BudaFeeling
閱讀文章: 第 1503/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回

卍 台大獅子吼佛學專站  http://buddhaspace.org