看板: BudaTech ◎ 佛典電子化討論    板主: HeavenChow
閱讀文章: 第 1100/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回
發信人: DavidChiou@Lion (邱大剛), 信區: BudaTech
標  題: Re: 一些說明
發信站: 獅子吼站 (Sun Dec 28 12:46:54 1997)
轉信站: Lion

==> 於 Heaven (Heavenchow@Lion) 文中述及:
:   2.若字元大於 128 , 則此字元及下一個字元屬於中文. 檢查此中文是否是需要的.
:   3.若是小於 128 , 以英文及符號看待. (包括換行碼)
:   4.處理完這個中文或英文, 再換下一個字.

    這裏我個人有些小經驗, 或許可以提升搜尋速率(如果要搜尋
的文件相當多, 而使用的程式語言較高階的話):

    "可試著先不管中英文, 全部用英文的搜尋方式. 找出的結果再以中文
     filter 來除去誤判的即可. "

    另外, 對於較短篇的比對(所以佛典搜尋的 case 或許不適用),
有時若使用較高階的語言(ex: Perl), 或許可先將所有的中文字間以空
白隔開, 然後再以空白為字元的間隔單位. 這個好處是英文及中文的比對
可一次解決掉, 而且是依照中英的相對順序. 不過效率如何我沒有仔細評
估過, 僅供參考.

    附帶一提的是, 在單教授以前發展的 cgrep 上, 有 "換行搜尋" 的
功能. 例如說以下文件:
"觀自在菩薩行深般
 若波羅蜜多時照見"
    要找出 "般若" 的話, 就必須具有換行搜尋的功能(這在 maha 
的測試也有指出), 因此可以考慮未來加入此一功能(據我所知,
單教授 cgrep 的作法好像是 define 一個某大小的 buffer, 能將
前一行的最後面 n 個字元和這一行接起來, 一同進行比對?)

謝謝!!
--
﹉﹊﹉﹊ � ﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊
             幻                  陽焰          化城    水月
           浮泡                   眼花               旋火輪
﹍﹎﹍﹎﹍﹎﹍﹎﹍﹎﹍﹎﹍﹎﹍﹎﹎﹍﹎﹍﹎﹍﹎﹍﹎﹍﹎﹍﹎﹍﹎﹍ � ﹎﹍﹎﹍
 
Ξ Origin: 獅子吼站 <cbs.ntu.edu.tw> [FROM: 168.95.103.135]
閱讀文章: 第 1100/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回

卍 台大獅子吼佛學專站  http://buddhaspace.org