这套分词系统不错。推荐一下 http://www.ftphp.com/scws/ 动态 * 2008-12-21 SCWS 划入 FTPHP 项目,作为子项目重建本网站。 * 2006 - 2007 陆续开发纯 PHP 实现的 PSCWS 第二版与第三版,2007-06-09 发布 scws-0.0.1 pre 版,功能基本完整,2008-03-08 发布 scws-1.0.0 正式版。简介 - SCWS 是 Simple Chinese Words Segmentation 的缩写,即简易中文分词系统。 这是一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词。词是汉语的基本语素单位,而书写的时候不像英语会在词之间用空格分开,所以如何准确而又快速的分词一直是中文分词的攻关难点。 SCWS 在概念上并无创新成分,采用的是自行采集的词频词典,并辅以一定程度上的专有名称、人名、地名、数字年代等规则集,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些中小型搜索引擎、关键字提取等场合运用。 SCWS 采用纯 C 代码开发,以 Unix-Like OS 为主要平台环境,提供共享函数库,方便植入各种现有软件系统。此外它支持 GBK,UTF-8,BIG5 等汉字编码,切词效率高。 [推荐]首个搭载 SCWS 分词系统的中小型站内全文检索解决方案 - FTPHP!版本列表版本 类型 平台 性能 其它SCWS-1.0.x C 代码 *Unix*/*PHP* 准确: 95%, 召回: 91%, 速度: 1.2MB/secPHP扩展分词速度: 250KB/sec [下载] [文档] [安装说明]php_scws.dll(1) PHP扩展库 Windows/PHP 4.4.x 准确: 95%, 召回: 91%, 速度: 40KB/sec [下载] [文档] [安装说明]php_scws.dll(2) PHP扩展库 Windows/PHP 5.2.x 准确: 95%, 召回: 91%, 速度: 40KB/sec [下载] [文档] [安装说明]PSCWS23 PHP源代码 不限 (不支持UTF-8) 准确: 93%, 召回: 89%, 速度: 960KB/min [下载] [文档]PSCWS4 PHP源代码 不限 准确: 95%, 召回: 91%, 速度: 160KB/min [下载] [文档]
我的开源PHP中文分词扩展:PHPCWS 1.0.0[原创]
来源:互联网 发布日期:2011-08-28 21:47:57 浏览:15475次
相关内容
- 三星 Exynos 2500 芯片再爆料:加码NPU芯片,构建更丰富 AI 体验
- 英伟达黄仁勋回应 AI 芯片定价问题,强调中国市场重要性
- 三星组建 HBM 产能质量提升团队,加速 AI 推理芯片 Mach-2 开发
- 被科技巨头押注,Figure AI创始人是“马斯克2.0”?
- 又一AI爆款应用!字节Gauth在美国走红 数理化多科目“全能辅导”
- 豪赌AI芯片!孙正义被曝筹资1000亿美元,要抗衡英伟达?
- 仅1/8,“硅仙人”称不到1万亿美元就能重塑AI芯片领域
- 革命性创新:如何通过医疗互联网彻底改善患者的就医体验?
- 科技大佬在关注什么?人工智能价值对齐!微软已入局
- 扎克伯格对脑机接口持谨慎态度:等技术成熟后才会尝试
AiLab云推荐
最新资讯
- 纳米缝合让复合材料更轻更坚韧
- Meta全新自研AI芯片曝光:性能相比MTIA v1提升了3倍!
- M4芯片将专注于AI!苹果据称拟全面升级Mac产品线,股价涨超4%
- 英特尔甩出全新AI训练芯片!跑千亿大模型速度超H200,罕见披露AI浮点性能
- 英特尔突袭英伟达H100,新AI芯片训练快40%,推理快50%,CEO蹦迪庆祝
- 对话东方晶源:打造中国芯片制造的GoldenFlow
- 一颗改变了世界的芯片
- 英特尔展示多模块芯片,预计为 Gaudi 3 人工智能加速器
- 台地震影响全球半导体格局?分析称可能会让供应链多元化呼声更强烈
- 三星 Exynos 2500 芯片再爆料:加码NPU芯片,构建更丰富 AI 体验
本月热点
热门排行
-
ChatGPT 设计了一款芯片
阅读量:196167
-
2023年全球风投额创5年最低,机构:今年会有更多创业公司倒闭
阅读量:195319
-
计算效率提升超60倍!中国公司杉数科技用GPU芯片开启运筹学新的“大航海时代”|钛媒体焦点
阅读量:191924
-
2023,AI创业者的50条反思
阅读量:102946
-
专访清华大学脑机接口科研团队负责人:中美“脑机接口”下一突破是什么?
阅读量:63437
-
2024,AI芯片之争加剧
阅读量:24135