Not logged in |
Login
skip to content
98电信聚合 » Lendy » April 2008
H
ome
R
efresh
S
earch
A
d
min
Feeds
Categories
Tags
Feeds
245
items (
10
unread) in
10
feeds
Blogs
(1 unread)
Lendy
(1 unread)
ivan
時計坂一刻館三号室
Tech
(2 unread)
Jamyy's Weblog
(2 unread)
Jeffrey's Blog
LAMP
(7 unread)
PHP.net news & announcements
(1 unread)
FreeBSD Security Advisories
delphij's Chaos
(1 unread)
FreeBSD 项目新闻
风雪之隅
(5 unread)
Lendy
SCWS-PHP扩展的说明及用法
Posted:
April
8
, 2008, 12:15pm CST by
Lendy
SCWS 是 Simple Chinese Words Segmentation 的缩写(简易中文分词系统)。它是一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词,因为词是汉语的基本语素单位,而书写的时候不像英语会在词之间用空格分开,所以如何准确快速的分词一直是中文分词的攻关难点。 本分词法并无太多创新成分,采用的是自己采集的词频词典,并辅以一定的专有名称,人名,地名,数字年代等规则识别来达到基本分词,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些小型搜索引擎、关键字提取等场合运用。首次雏形版本发布于 2005 年底。 本系统支持的汉字编码包括 GBK、UTF-8
← January 2008 (1 item)
May 2008 (1 ITEM) →