技术摘要

权利要求书

技术附图

交易流程

委托经理人

本发明公开一种基于词频差值因子的特征选择方法，首先选择文档数量不同、特征个数为几千甚至上万的文本类型数据集，去掉出现的文档数多于总数的25％或少于3篇的词语；针对未划分训练集和测试集的数据集采用5折交叉验证法处理；根据得到的最优特征子集分别完成对训练集和测试集数据的降维处理；采用朴素贝叶斯算法、支持向量机算法训练分类模型，进行预测，得到分类结果；对分类效果进行评估，宏F1和微F1分数越高，则证明分类的效果越好，进而证明特征选择算法性能越好。本发明在计算词语与类别的相关性时能够兼顾文档频率以及词频对其重要性的影响，最终选择出具有高度类别区分能力的词语，提高分类的准确率与效率。

基于词频差值因子的特征选择方法

摘要详情

技术摘要

权利要求书

技术附图

交易流程

委托经理人

同类信息

我要咨询