来源:互联网2020-03-09 07:57:52 热度:

怎样实现中文分词查询?

LX A i 中 国 网 Q

我们这里倒是有一套软件(主要是对商品上的),比如:娃哈哈牌苹果味全脂奶粉(500克),
先用这个软件拆开(首先把‘()’和500克这个量词去掉)娃哈哈+牌+苹果+味+全脂+奶粉
由于汉语的特性,最后的名词才是关键,前面的都是用来修饰这个名词的,所以最后程序识别这个商品是奶粉。但是这个程序不是在数据库的方法作的,而是一个C++的程序,因为我们发现这样更快,如果用数据库的方法,反倒没有这个迅速。

过于模糊查询,前两天刚写了一点东西给别的组,大致的想法是通过模版,一次次来模,也是在商品的自动化分类上的应用,比如像上面的例子我先做一个商品的类别表作为模版,来第一次模,这样模后会有一些商品重复分类 比如上面 的例子那个奶粉同时被分在苹果和奶粉两种商品中,所以要对这种重复分类的商品继续取模,于是又作了一个模版,这个模版中判断
苹果和奶粉的优先级,奶粉的优先级〉苹果,这样第二次又分离出去一部分数据,然后第三次模,一般的我们经过测试三次基本上就没有什么数据不能分开了。剩下的少部分用肉眼就可以区分。不过用这个数据库的方法如果和上面第一种方法结合速度和质量上就会更上一层楼。

注:有些问题还是比较奇特的比如***牌西服套装,如果用最上面的方法,往往是把这个商品分成为套装,而实际上这个是没有意义的。

LX A i 中 国 网 Q

本文网址:

欢迎关注微信公众号:人工智能报;合作及投稿请联系:editor@cnaiplus.com

AI中国号...

关注微信公众号,了解最新精彩内容