最近花了一點時間研究中文斷詞,想要寫一個斷詞用的 PHP extension ,不過對我這個跟 C 不太熟的人來說實在太難了 orz (因此目前 Bigram Full-text Search 只先加上了簡單的停字功能 —— 直接刪除所有停字,不判斷它出現在句子中的什麼位置或者是前後文關係 :p)
先筆記起來,看看以後會不會用到吧…
最近花了一點時間研究中文斷詞,想要寫一個斷詞用的 PHP extension ,不過對我這個跟 C 不太熟的人來說實在太難了 orz (因此目前 Bigram Full-text Search 只先加上了簡單的停字功能 —— 直接刪除所有停字,不判斷它出現在句子中的什麼位置或者是前後文關係 :p)
先筆記起來,看看以後會不會用到吧…
你也可以考慮一下中研院的CKIP:http://rocling.iis.sinica.edu.tw/CKIP/
我知道這個,但是他沒有提供 source code ,無法作為參考。
另外,上面第一個連結包山包海地什麼都提到了,也包含了 CKIP 。
(所以我就偷懶,只筆記了這個連結 XD)
為了避免連結失效,還是自己備一份好了…