本发明提供了一种预测微生物益生潜力的方法及其装置,该方法包括:确定微生物对应的样本基因组序列,样本基因组序列基于微生物样本基因组DNA通过高通量测序得到;基于样本基因组序列,利用k‑mer算法确定子基因组序列对应的子片段集合以及子片段集合丰度,其中,样本基因组序列中包括多个子基因组序列,子片段集合丰度用于表示子基因组序列在样本基因组序列的丰度分布情况;利用支持向量机模型对子片段集合以及子片段集合丰度进行预测,以得到微生物益生潜力的结果,支持向量机模型通过历史基因组训练序列对初始支持向量机模型训练得到。本发明实施例提高获取微生物益生潜力效率的同时还能够保证微生物益生潜力的精度。
1.一种预测微生物益生潜力的方法,其特征在于,包括: 确定微生物对应的样本基因组序列,所述样本基因组序列基于微生物样本基因组DNA通过高通量测序得到; 基于所述样本基因组序列,利用k-mer算法确定子基因组序列对应的子片段集合以及子片段集合丰度,其中,所述样本基因组序列中包括多个子基因组序列,所述子片段集合丰度用于表示子基因组序列在所述样本基因组序列的丰度分布情况; 采用k-mer算法从样本基因组序列中提取包含k个碱基的子片段集合及其子片段集合丰度,基因组长度为L,k-mer长度设为k,产生的子片段集合中的子片段数目为:L-k+1; 利用支持向量机模型对所述子片段集合以及子片段集合丰度进行预测,以得到微生物益生潜力的结果,所述支持向量机模型通过历史基因组训练序列对初始支持向量机模型训练得到。
2.根据权利要求1所述的一种预测微生物益生潜力的方法,其特征在于,所述利用支持向量机模型对所述子片段集合以及子片段集合丰度进行预测之前,还包括: 训练初始支持向量机模型,以得到支持向量机模型,所述初始支持向量机模型为尚未训练的模型。
3.根据权利要求2所述的一种预测微生物益生潜力的方法,其特征在于,所述训练初始支持向量机模型,包括: 确定历史基因组训练序列; 基于所述历史基因组训练序列训练初始支持向量机模型。
4.根据权利要求3所述的一种预测微生物益生潜力的方法,其特征在于,所述确定历史基因组训练序列,包括: 获取历史基因组序列; 对历史基因组序列进行k-mer计算,得到历史子片段集合以及历史子片段集合丰度; 对历史子片段集合以及历史子片段集合丰度进行归一化处理,并进行特征筛选,得到历史基因组训练序列。
5.根据权利要求1所述的一种预测微生物益生潜力的方法,其特征在于,所述确定微生物对应的样本基因组序列,包括 基于微生物的微生物样本基因组DNA进行高通量测序,得到测序结果; 将所述测序结果与参考基因组进行比对,得到样本基因组序列。
6.一种预测微生物益生潜力的装置,其特征在于,包括: 样本基因组序列确定模块,用于确定微生物对应的样本基因组序列,所述样本基因组序列基于微生物样本基因组DNA通过高通量测序得到; 子片段提取模块,用于基于所述样本基因组序列,利用k-mer算法确定子基因组序列对应的子片段集合以及子片段集合丰度,其中,所述样本基因组序列中包括多个子基因组序列,所述子片段集合丰度用于表示子基因组序列在所述样本基因组序列的丰度分布情况; 采用k-mer算法从样本基因组序列中提取包含k个碱基的子片段集合及其子片段集合丰度,基因组长度为L,k-mer长度设为k,产生的子片段集合中的子片段数目为:L-k+1;预测模块,用于利用支持向量机模型对所述子片段集合以及子片段集合丰度进行预测,以得到微生物益生潜力的结果,所述支持向量机模型通过历史基因组训练序列对初始支持向量机模型训练得到。
7.根据权利要求6所述的一种预测微生物益生潜力的装置,其特征在于,还包括: 训练模块,用于训练初始支持向量机模型,以得到支持向量机模型,所述初始支持向量机模型为尚未训练的模型。
8.根据权利要求7所述的一种预测微生物益生潜力的装置,其特征在于,所述训练模块,用于训练初始支持向量机模型,包括: 确定历史基因组训练序列; 基于所述历史基因组训练序列训练初始支持向量机模型。
9.根据权利要求8所述的一种预测微生物益生潜力的装置,其特征在于,所述训练模块,用于确定历史基因组训练序列,包括: 获取历史基因组序列; 对历史基因组序列进行k-mer计算,得到历史子片段集合以及历史子片段集合丰度; 对历史子片段集合以及历史子片段集合丰度进行归一化处理,并进行特征筛选,得到历史基因组训练序列。
10.根据权利要求6所述的一种预测微生物益生潜力的装置,其特征在于,所述样本基因组序列确定模块,用于确定微生物对应的样本基因组序列,包括: 基于微生物的微生物样本基因组DNA进行高通量测序,得到测序结果;将所述测序结果与参考基因组进行比对,得到样本基因组序列。
请联系平台
请联系平台