Friso免费版(高性能中文分词器)是一款编程工具软件,officeba免费提供Friso免费版(高性能中文分词器)下载,更多Friso免费版(高性能中文分词器)相关版本就在officeba。
Friso是是根据C语言对外开放的一款完全免费开源系统的强劲特性的汉语分词器,关键靠mmseg优化算法来完成,适用英中/英中混和词的鉴别,适用阿拉伯数/小数基本上一个字企业的鉴别,还能够自定保存标点,安全性的运用于多进程/线程同步自然环境。
关键作用
分词算法:mmseg优化算法 Friso 独创性的蚁群算法,四种分割方式。
关键词获取:根据textRank优化算法。
重要语句获取:根据textRank优化算法。
重要语句获取:根据textRank优化算法。
分词算法
四种分割方式:
简易模式:FMM 优化算法,合适速率规定场所。
繁杂方式: MMSEG 四种过虑优化算法,具备较高的岐义除去,词性标注准确度做到了98.41%。
检验方式:只回到词典中现有的关键词,很合适一些运用场所。(1.6.1版本号逐渐)。
数最多方式:粗粒度分割,专为查找为之,除开汉语解决外(不具有汉语的姓名,数字识别等智能化作用)别的与繁杂方式一致(英语,组成词等)。
1、词性标注作用特点:
与此同时适用对 UTF-8/GBK 编号的分割,适用 php5 和 php7 拓展和 sphinx token 软件。
适用自定义词库。在 dict 文件夹名称下,能够随意加上/删掉/变更词典和词典关键词,而且对词典开展了归类。
简体字/繁体字/简体字混和适用, 能够便捷的对于简体字,繁体字或是简繁体分割。与此同时还能够为此完成简繁体的互相查找。
适用英中/英中混和词的鉴别(维护保养词典能够鉴别一切一种组成)。比如:拉卡ok, 好看mm, c语言,IC卡,哆啦a梦。
很好的英文适用,英语标点符号组成词鉴别, 比如c , c#, 电子邮箱,网站地址,小数,百分比。
2、自定保存标点符号:你能自定保存在分割结果中的标点符号,那样能够鉴别出一些繁杂的组成,比如:c , k&r,code.google.com。
复杂英文分割的二次分割:默认设置 Friso 会保存数据和英文字母的原组成,打开此作用,能够开展二次分割提升查找的准确率。比如:qq2013会被切分为:qq/ 2013/ qq2013。
适用阿拉伯数/小数基本上一个字企业的鉴别,比如2012年,1.75米,5吨,一百二十斤,38.6℃。
自动英文圆弧/半角,英文大写/小写字母变换。
3、近义词配对:全自动汉语/英语近义词增加。 (必须在 friso.ini 中打开 friso.add_syn 选择项)。
全自动中英终止词过虑。(必须在 friso.ini 中打开 friso.clr_stw 选择项)。
多配备适用, 安全性的运用于多进程/线程同步自然环境。