Bigram Full-Text Search rev.31


0 Comments

r31 是修正一個新發現的 bug :以 “Полюшко-поле” 這篇文章為例,這篇文章中所出現的 “Полюшко” 都是大寫字首。而這個 plug-in 為了解決 Bi-gram 會被 MySQL 認為太短而省略的問題,會將 Bi-gram 資料編碼為 UTF-8 (Hex) , “Полюшко” 也不例外的被編碼了,導致搜尋 “полюшко-поле” 時會找不到任何東西,因此 r31 中修改為不編碼歐文字元。(簡單一句來說就是:以前的版本會區分特殊歐文字元的大小寫,現在不會了)

另外順便在這邊提一下… 本 Plug-in 遇到阿拉伯文、希伯來文、亞拉姆文、喬治亞文、印度文、泰文、藏文等會直接省略,因為在下對這些文字實在一點概念也沒有… orz

Leave a Reply

Your comment may not display immediately due to spam filtering. Please wait for moderation.