看板: BudaTech ◎ 佛典電子化討論 板主: HeavenChow |
閱讀文章: 第 1100/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回 |
發信人: DavidChiou@Lion (邱大剛), 信區: BudaTech 標 題: Re: 一些說明 發信站: 獅子吼站 (Sun Dec 28 12:46:54 1997) 轉信站: Lion ==> 於 Heaven (Heavenchow@Lion) 文中述及: : 2.若字元大於 128 , 則此字元及下一個字元屬於中文. 檢查此中文是否是需要的. : 3.若是小於 128 , 以英文及符號看待. (包括換行碼) : 4.處理完這個中文或英文, 再換下一個字. 這裏我個人有些小經驗, 或許可以提升搜尋速率(如果要搜尋 的文件相當多, 而使用的程式語言較高階的話): "可試著先不管中英文, 全部用英文的搜尋方式. 找出的結果再以中文 filter 來除去誤判的即可. " 另外, 對於較短篇的比對(所以佛典搜尋的 case 或許不適用), 有時若使用較高階的語言(ex: Perl), 或許可先將所有的中文字間以空 白隔開, 然後再以空白為字元的間隔單位. 這個好處是英文及中文的比對 可一次解決掉, 而且是依照中英的相對順序. 不過效率如何我沒有仔細評 估過, 僅供參考. 附帶一提的是, 在單教授以前發展的 cgrep 上, 有 "換行搜尋" 的 功能. 例如說以下文件: "觀自在菩薩行深般 若波羅蜜多時照見" 要找出 "般若" 的話, 就必須具有換行搜尋的功能(這在 maha 的測試也有指出), 因此可以考慮未來加入此一功能(據我所知, 單教授 cgrep 的作法好像是 define 一個某大小的 buffer, 能將 前一行的最後面 n 個字元和這一行接起來, 一同進行比對?) 謝謝!! -- ﹉﹊﹉﹊ � ﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊ 幻 陽焰 夢 影 化城 � 響 水月 浮泡 眼花 旋火輪 ﹍﹎﹍﹎﹍﹎﹍﹎﹍﹎﹍﹎﹍﹎﹍﹎﹎﹍﹎﹍﹎﹍﹎﹍﹎﹍﹎﹍﹎﹍﹎﹍ � ﹎﹍﹎﹍ Ξ Origin: 獅子吼站 <cbs.ntu.edu.tw> [FROM: 168.95.103.135] |
閱讀文章: 第 1100/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回 |
卍 台大獅子吼佛學專站 http://buddhaspace.org |