展会信息港展会大全

我的开源PHP中文分词扩展:PHPCWS 1.0.0[原创]
来源:互联网   发布日期:2011-08-28 21:47:57   浏览:16881次  

导读:Web系统架构与底层研发...

这套分词系统不错。推荐一下 http://www.ftphp.com/scws/ 动态    * 2008-12-21 SCWS 划入 FTPHP 项目,作为子项目重建本网站。    * 2006 - 2007 陆续开发纯 PHP 实现的 PSCWS 第二版与第三版,2007-06-09 发布 scws-0.0.1 pre 版,功能基本完整,2008-03-08 发布 scws-1.0.0 正式版。简介 - SCWS 是 Simple Chinese Words Segmentation 的缩写,即简易中文分词系统。    这是一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词。词是汉语的基本语素单位,而书写的时候不像英语会在词之间用空格分开,所以如何准确而又快速的分词一直是中文分词的攻关难点。    SCWS 在概念上并无创新成分,采用的是自行采集的词频词典,并辅以一定程度上的专有名称、人名、地名、数字年代等规则集,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些中小型搜索引擎、关键字提取等场合运用。 SCWS 采用纯 C 代码开发,以 Unix-Like OS 为主要平台环境,提供共享函数库,方便植入各种现有软件系统。此外它支持 GBK,UTF-8,BIG5 等汉字编码,切词效率高。    [推荐]首个搭载 SCWS 分词系统的中小型站内全文检索解决方案 - FTPHP!版本列表版本   类型   平台   性能   其它SCWS-1.0.x   C 代码   *Unix*/*PHP*   准确: 95%, 召回: 91%, 速度: 1.2MB/secPHP扩展分词速度: 250KB/sec   [下载] [文档] [安装说明]php_scws.dll(1)   PHP扩展库   Windows/PHP 4.4.x   准确: 95%, 召回: 91%, 速度: 40KB/sec   [下载] [文档] [安装说明]php_scws.dll(2)   PHP扩展库   Windows/PHP 5.2.x   准确: 95%, 召回: 91%, 速度: 40KB/sec   [下载] [文档] [安装说明]PSCWS23   PHP源代码   不限 (不支持UTF-8)   准确: 93%, 召回: 89%, 速度: 960KB/min   [下载] [文档]PSCWS4   PHP源代码   不限   准确: 95%, 召回: 91%, 速度: 160KB/min   [下载] [文档]

赞助本站

AiLab云推荐
推荐内容
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港