政策资讯

基于词频差值因子的特征选择方法

专利类型:
申请号/专利号:
CN202110466347.5
申请人(专利权人):
周红芳
行业类别:
技术成熟度:
公布时间:
证书状态:
授权
交易价格:
45000元
我要咨询

摘要详情

技术摘要

权利要求书

技术附图

交易流程

委托经理人

本发明公开一种基于词频差值因子的特征选择方法,首先选择文档数量不同、特征个数为几千甚至上万的文本类型数据集,去掉出现的文档数多于总数的25%或少于3篇的词语;针对未划分训练集和测试集的数据集采用5折交叉验证法处理;根据得到的最优特征子集分别完成对训练集和测试集数据的降维处理;采用朴素贝叶斯算法、支持向量机算法训练分类模型,进行预测,得到分类结果;对分类效果进行评估,宏F1和微F1分数越高,则证明分类的效果越好,进而证明特征选择算法性能越好。本发明在计算词语与类别的相关性时能够兼顾文档频率以及词频对其重要性的影响,最终选择出具有高度类别区分能力的词语,提高分类的准确率与效率。

我要咨询

商标号:
联系人:
联系电话:
商标名称:
报价:
需求描述:
提交
服务
客服
电话:18504815395
邮箱:965848622@qq.com
地址:呼和浩特市赛罕区昭乌达路70号内蒙古科技大厦906
微信
招聘
返回顶部