基于图像处理的试题切割方法研究

张再军

【摘要】研究了基于图像处理的试卷切割方法，根据试题题号、线框等在答题卡图像中的纹理及边距特征，使用投影法对试题进行了精确分割。实验结果表明，该算法速度快、效率高，能够满足自动化阅卷系统的实时性及准确性要求。

【关键词】试题切割;自动化阅卷系统;图像处理

中图分类号： TP391.41 文献标识码： A文章编号： 2095-2457（2019）17-0077-002

DOI：10.19694/j.cnki.issn2095-2457.2019.17.037

Research on Paper Cutting Method based on Image Processing

ZHANG Zai-jun

（School of mathematics and statistics， Qiannan Normal University for Nationalities， Guizhou Duyun 5580000， China）

【Abstract】This paper studies the paper cutting method based on image processing. According to the texture and margin features of question number and wireframe in the answer card image， the projection method is used to segment the question accurately. Experimental results show that the algorithm is fast and efficient， and can meet the real-time and accuracy requirements of automatic marking system.

【Key words】Examination questions; Automatic marking system; Image processing

0 引言

卷面考試已成为教学活动中检验学生成绩的重要环节之一，传统的人工阅卷方式不仅量大、速度慢、效率低，而且也容易出现客观上的人为差错，浪费了大量的人力物力。因此对考试后的阅卷形式进行研究和改进具有重要的意义。目前，市场上已经出现了大量的自动化阅卷系统，具有阅卷速度快，效率高等优点，但这些系统大多采用的是OMR（Optical Mark Recognition）技术[1-3]，这种技术需要光电式阅读机和专用机读卡，具有成本高、操作复杂、设备利用率低、日久易出现故障的缺点，至今还未普及到各类学校。基于图像处理的自动化阅卷系统恰好弥补了光电式阅读机阅卷系统的不足，它采用图像处理的技术进行自动化阅卷，对相应设备的要求也较为简单，只要能扫描出答题卡的图像即可，成本低，操作方便。

试题切割是基于图像处理的自动化阅卷系统的关键步骤，主要完成的功能是将考生的整个答题卡图像以题为单位分割成若干小部分，切割的好坏将直接影响后面电脑自动阅卷的准确率。文献[2-4]等对此进行了研究，它们侧重于答题卡主观题的分割与识别，对客观题部分还未有涉及。因此，本文从图像处理的角度出发，对答题卡图像中的试题分割方法进行了探讨。

1 预备知识

1.1 颜色空间转换

一般扫描得到的答题卡图像为RGB图像，为方便后续试题特征提取，将RGB图像转换到HSV颜色空间图像，公式如下：

上式中r，g，b分别代表RGB颜色空间各颜色对应的分量，max表示r，g，b中的最大值，min表示r，g，b中最小值。

1.2 Hough变换

基于Hough变换的倾斜校正算法是图像处理的常用方法，其基本思想是点线的对偶性。采用极坐标方程ρ=xcosθ+ysinθ，将原二维平面中的点对应参数平面中的一条曲线。二维平面中的直线则可由参数平面内两条曲线的交点确定[5]。

具体步骤为：（1）读取图像，并将其转化为灰度图像;（2）灰度图像二值化，并对得到的结果进行边缘检测;（3）对边缘检测图像作Hough变换，计算偏离角θ;（4）根据θ校正原图像。

1.3 图像投影

在试题图像切割中，投影的作用是找出答题卡中不同页码和不同题目之间的边距。图像水平和垂直投影分别为对二值化后的图像矩阵作横向和纵向求和。

2 试题分割

2.1 试题粗分割

一般试题答题卡的每一面都有几个页面或者模块，为区分每个页面，将预处理后的答题卡图像即倾斜校正后的二值化灰度图像作垂直投影，根据投影矩阵找出各个页面之间的边距。

具体算法描述为：

（1）给定阈值T1，自左向右扫描投影图像H，若H中的某个值大于T1，则记录下这个值对应的下标i;

（2）继续扫描，直至结束，最后得到了一个存放下标的行矩阵;

（3）给定阈值T2，自左向右扫描此下标行矩阵，若相邻两元素间的差值小于T2，则去掉其中一个值，另一值用这两个元素的平均值代替，然后以此值为初始点继续扫描行矩阵，直至结束;

（4）按此行矩阵角标的顺序对原始图像进行分割。

算法第（2）步得到的下标行矩阵中可能会出现相邻角标之间对应的投影值都大于阈值T1的情况，如果此时按角标之间的顺序对原始图像进行分割，就会出现若干细条，这会干扰和影响后面试题切割的准确性，因此，对此行矩阵作了第（3）步处理，这样就完成了对试题的页码分割。

由于答题卡图像的不同试题之间会用题号或者内容进行标识，为区别出不同题号，可对每个页面的答题卡图像作水平投影，算法同上，根据投影矩阵找出各题号对应的位置。

2.2 试题精分割

由2.1中算法切割出的试题图像较为粗糙，对一个题目有几个小题的情况，该方法切割失效，会导致一个题目的几个小题分别被切成几个部分，从而造成切割的试题不完整。这部分结果将在后续实验部分进行展示。为避免出现这种错误，将2.1中算法进行改进，描述如下：

（1）对2.1步骤中得到的页面图像作垂直投影，切除边框，寻找试题题号与线框距离的大致范围;

（2）在上述范围内，从上到下，自左向右扫描图像，将像素值不为0的点的行数记录下来，并将其存放到一矩阵中，该行即为各试题对应的起始行或上一题的终止行;

（3）再对图像做水平投影，找到有关试题所在的行，将其存放到另一矩阵中;

（4）对两行矩阵取交运算，得到试题所对应的完整行，然后按行的顺序对试题进行精分割。

改进后的算法考虑了不同类型题目的边距特征，避免了初分割中直接水平投影造成的试题分割不完整性，从而对不同题目进行了精分割。

3 实验结果

为了验证算法的有效性，本文选取了32张答题卡图像在一般实验室计算机平台上，采用matlab软件编写代码进行实验，图1显示了其中一张答题卡的切割效果。扫描得到的答题卡图像由于人工或机器等放置不当，会出现不用程度的倾斜。因此，先将图像用hough变换进行校正，然后将该图像转换到HSV颜色空间，在H分量下对图像二值化，接着对二值化的图像作垂直投影，然后按文中粗分割方法对试题进行页码和题目分割，最后按改进方法进行精分割。

从图1中可以看出，粗分割方法对一个大题中含有几个小题的题目切割不准确，导致分割不完整，改进的算法能够有效避免这种情况。本实验所选取的32张答题卡图像，运用该算法都能准确分割出其中的试题，且在实验室电脑上（内存4G，处理器AMD.3.10GHZ）运行的最大时间不超多7.1秒，能够满足自动阅卷系统的实时性要求。

4 小结

试题切割作为基于图像处理的自动化阅卷系统的关键步骤，切割的好坏将直接影响系统的开发和测评。本文从图像处理的角度出发，对答题卡图像中的试题切割方法进行了探究，在倾斜校正的基础上，结合试题题号、线框等在答题卡图像中的纹理及边距特征，使用投影法对答题卡试题进行了准确分割。该方法的研究，为進一步开发基于图像处理的自动化阅卷系统奠定了基础。

【参考文献】

[1]王红玉.基于网上阅卷的OMR扫描图像识别系统的设计与实现[D].武汉理工大学，2007.

[2]高育鹏，杨俊等.基于图像识别的自动阅卷研究[J].现代电子技术.2006.30（11）：119-127.

[3]张香让.击中/击不中变换在标准答题卡分割中的应用[J].计算机应用，2004，24（10）：141-144.

[4]杨青燕，等.基于灰度图像的答题卡识别技术[J].计算机工程与设计，2009.

[5]李慧鹏，朱伟伟，谭朦曦，郑晓.基于改进Hough变换的直线检测算法[J].半导体光电，2017，38（04）：603-608.

基于图像处理的试题切割方法研究

科技视界相关栏目本月热门文章