本发明公开了一种针对Hadoop分布式文件系统的存储优化方法,具体为:首先,选取INFO级别日志文件,所选取的日志文件包含具体执行时间戳和文件名信息,获取INFO级别日志文件的访问记录和删除记录;将IFNO级别日志中所有包含关键词的信息提取并整理,再按照时间戳进行排序并编号;之后确定特征标签,选取特征,构建特征向量,形成训练文件淘汰模型的样本集;选择特征向量的三个特征值依次作为决策树的三个分类节点,采用ID3算法建立决策树,并由决策树构建文件淘汰模型;最后,使用建立的文件淘汰模型,预测文件可复用性。本发明的方法,优化分布式文件系统的存储效率,减小数据存储规模,提HDFS的存储效率。