Re: 一些說明

看板: BudaTech ◎ 佛典電子化討論 板主: HeavenChow

閱讀文章：第 1100/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回

發信人: DavidChiou@Lion (邱大剛), 信區: BudaTech
標  題: Re: 一些說明
發信站: 獅子吼站 (Sun Dec 28 12:46:54 1997)
轉信站: Lion

==> 於 Heaven (Heavenchow@Lion) 文中述及:
:   2.若字元大於 128 , 則此字元及下一個字元屬於中文. 檢查此中文是否是需要的.
:   3.若是小於 128 , 以英文及符號看待. (包括換行碼)
:   4.處理完這個中文或英文, 再換下一個字.

    這裏我個人有些小經驗, 或許可以提升搜尋速率（如果要搜尋
的文件相當多, 而使用的程式語言較高階的話）:

    "可試著先不管中英文, 全部用英文的搜尋方式. 找出的結果再以中文
     filter 來除去誤判的即可. "

    另外, 對於較短篇的比對（所以佛典搜尋的 case 或許不適用）,
有時若使用較高階的語言（ex: Perl）, 或許可先將所有的中文字間以空
白隔開, 然後再以空白為字元的間隔單位. 這個好處是英文及中文的比對
可一次解決掉, 而且是依照中英的相對順序. 不過效率如何我沒有仔細評
估過, 僅供參考.

    附帶一提的是, 在單教授以前發展的 cgrep 上, 有 "換行搜尋" 的
功能. 例如說以下文件:
"觀自在菩薩行深般
 若波羅蜜多時照見"
    要找出 "般若" 的話, 就必須具有換行搜尋的功能（這在 maha 
的測試也有指出）, 因此可以考慮未來加入此一功能（據我所知,
單教授 cgrep 的作法好像是 define 一個某大小的 buffer, 能將
前一行的最後面 n 個字元和這一行接起來, 一同進行比對?）

謝謝!!
--
﹉﹊﹉﹊ � ﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊
             幻                  陽焰                夢               
       影              化城            �       響              水月
           浮泡                   眼花               旋火輪
﹍﹎﹍﹎﹍﹎﹍﹎﹍﹎﹍﹎﹍﹎﹍﹎﹎﹍﹎﹍﹎﹍﹎﹍﹎﹍﹎﹍﹎﹍﹎﹍ � ﹎﹍﹎﹍
　
Ξ Origin: 獅子吼站 <cbs.ntu.edu.tw> [FROM: 168.95.103.135]

閱讀文章：第 1100/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回

卍台大獅子吼佛學專站 http://buddhaspace.org