多页同类文档碎片的分组方法,包括以下步骤:步骤1、提取文档的最左边碎片和最右边碎片,并确定碎片的分组数量;步骤2、将文档的最左边碎片和最右边碎片进行分组对应;步骤3、将文档的中间部分碎片划分为密集碎片和非密集碎片;步骤4、对非密集碎片进行分组;步骤5、对密集碎片进行分组。基于文档最左边碎片和最右边碎片中文字的布局特性,准确获得分组的数量;同时,根据段落文字的相关性以及文字在文档不同区域的特点,将最左边碎片和最右边碎片进行对应,将碎片按照所处区域进行分组,解决了现有技术中存在的同类文档碎片分组困难、分组准确率低的问题。