Notes on Chinese word segmentation

最近花了一點時間研究中文斷詞,想要寫一個斷詞用的 PHP extension ,不過對我這個跟 C 不太熟的人來說實在太難了 orz (因此目前 Bigram Full-text Search 只先加上了簡單的停字功能 —— 直接刪除所有停字,不判斷它出現在句子中的什麼位置或者是前後文關係 :p)

先筆記起來,看看以後會不會用到吧…

中文自然語言處理資料

中文斷詞實作

繁體中文詞庫

如何撰寫 PHP Extension

2 Comments

  1. 你也可以考慮一下中研院的CKIP:http://rocling.iis.sinica.edu.tw/CKIP/

  2. 我知道這個,但是他沒有提供 source code ,無法作為參考。

    另外,上面第一個連結包山包海地什麼都提到了,也包含了 CKIP 。
    (所以我就偷懶,只筆記了這個連結 XD)

    為了避免連結失效,還是自己備一份好了…

Leave your thoughts
  • You can use some HTML in your comment.
  • Your comment may not display immediately due to spam filtering. Please wait for moderation.