No more categories and tags, but terms


1 Comment

WordPress 正在進行大變動,標籤、文章分類、連結分類未來都將整合為 Terms ,這個變動影響到 wp_categories 表格,以後就沒有這張表了,因此有一堆外掛及佈景都會壞掉,使用 SVN 版的人最近不要更新得太勤勞比較好 XD

新建一個 View 可能可以解決向下相容問題,不過 View 算是個新功能,必須 MySQL 5 以上才支援。


TAK: Tom’s lossless Audio Kompressor


0 Comments

TAK 是一個新的無失真音訊壓縮格式(同時也是一個新的容器格式,它除了 TAK 以外,未來也能用來包裝其他常見音訊格式,就像 Matroska 那樣,不過這不重要 XD),它初次發表於 hydrogenaudio 論壇,當時作者隨便給它起了一個名字叫做 YALAC ,歷經了一年的封閉開發、測試以及我的引頸期盼後,現在終於釋出啦!

TAK 的特色是解碼速度快、壓縮率高,有興趣的話可以參考這一篇: How To TAK.


Notes on Chinese word segmentation


2 Comments

最近花了一點時間研究中文斷詞,想要寫一個斷詞用的 PHP extension ,不過對我這個跟 C 不太熟的人來說實在太難了 orz (因此目前 Bigram Full-text Search 只先加上了簡單的停字功能 —— 直接刪除所有停字,不判斷它出現在句子中的什麼位置或者是前後文關係 :p)

先筆記起來,看看以後會不會用到吧…

中文自然語言處理資料

中文斷詞實作

繁體中文詞庫

如何撰寫 PHP Extension


Bigram Full-Text Search v0.2.1


1 Comment

更新項目

其實跟 rev.18 一樣,差別只有搜尋迴響的功能完成了。

  • 新增選項頁面,其中包含以下功能:
    • 設定搜尋範圍是否包含迴響
    • 設定 N-gram 表格中是否包含 HTML ,如果包含的話,在搜尋框打 HTML 代碼能找到東西
    • 手動重建 N-gram 表格資料按鈕,設定完前兩個選項後必須按一下這個
    • 顯示目前 N-gram 表格的狀態,包含目前資料筆數、資料佔用空間及索引佔用空間這些資訊
    • 移除此 Plugin 按鈕,使用這個按鈕的話,它還會幫你刪除 N-gram 表格以及此 Plugin 的設定值
  • 不要將重複的 N-gram 字詞刪除,這樣對計算關聯性應該比較有幫助
  • 刪除文章時,同時也刪除 N-gram 表格中對應的資料(不過這不影響搜尋結果,舊版中並不會因此找到已刪除的文章)
  • INSERT LOW_PRIORITY 改成 INSERT DELAYED ,這好像才真的對效能有所幫助

已知問題

  • 已安裝舊版使用者更新時可能會看見一堆 Warning ,說 array_search() 第二個參數型態錯誤之類的… 不過這個訊息只會出現一次,而且不影響更新。

隱藏功能

  • 因為 N-gram 表格、 Full-text index 都已經建好了,所以順便加上一個列出相關文章的功能:bfs_GetRelatedEntries() ,在 Theme 中加上 <ul><?php bfs_GetRelatedEntries(); ?></ul> 即可。

計畫中功能

  • 設定不於迴響中搜尋時,則不建立 wp_comments_ngram 表格
  • 支援 boolean full-text search operators
  • 可選用 Trigram (讓 Index 變得更大,但結果可能更準確)

WarCraft Ⅲ:一勞永逸!繁體化所有簡體中文地圖


3 Comments

※ 對於這篇文章提到的字型有興趣者,請到這裡下載新版字型更新檔

由於前幾天我剛晉升為準研究生,所以現在非常的悠閒,在這美好的時光裡,我無意間想到了一個繁體中文化所有簡體中文 WarCraft Ⅲ 地圖的方法…… 那就是替換 WarCraft Ⅲ 的字型,讓簡體中文看起來像是繁體中文

其實這並不是新的發現,在 2002 年時就有人提出將 IE 的字型改成方正中等線繁體,讓簡體網頁顯示繁體的方法。但是 WarCraft Ⅲ 似乎不支援這些簡體中文字型(硬包進去會導致 WarCraft Ⅲ 程式錯誤),而且 WarCraft Ⅲ 配微软雅黑實在好漂亮,因此我決定自己改一個微软雅黑來用。

我試用了 FontCreatorFontLab StudioTypeToolAsiaFont Studio 後,覺得 TypeTool 是最小巧、速度最快、操作也方便的一個軟體。 FontCreator 光是 Glyph 列表就非常 lag ,而其他三項 FontLab 的產品則都大同小異,我只是從中選擇了最精簡的 TypeTool 。

有了軟體之後,接下來我開始找簡體中文–繁體中文對照表,實在是不知從何找起,最後直接從新同文堂中解出來用 XD 有了對照表後,改寫成按鍵精靈的 script (讓它先去複製繁體區的字體,然後覆蓋過簡體區的字體),等它跑完就完成了,其實滿簡單的,只是步驟有點繁瑣。

改好字型、用 MPQ Editor 包進 War3Patch.mpq 裡,就能開始享受全繁體的簡體中文地圖了~

這個字型不能用在 Word ,在 Word 中看起來是完全壞掉的字型… 應該有什麼方法可以修復啦… 不過我只要在 WarCraft Ⅲ 能用就好囉 :p

關於這個字型檔或者是 War3Patch.mpq ,好像都是版權物,所以這邊就不提供下載了…(是不是有被騙看完整篇的感覺?XD)

Update

我用 BinPatch 做了一個補綴程式,這樣就跟中文化程式一樣,比較沒有版權問題了~

必須要有 Version 5.00 的微软雅黑(msyh.ttf, MD5: c2db9c4749c6ecf521ffca0dd8f62752)才能使用此補綴程式,接下來再使用 MPQ2K 或其他程式更換 WarCraft Ⅲ 的字型。


paste://bcse.info


1 Comment

為了方便自己貼東西,寫了這個小 script —— paste://bcse.info ,支援 BBCode ,但是支援了哪些… 我自己知道就好了 :p

paste://bcse.info
 1