为什么不考虑使用Tesseract之类的开源OCR引擎呢?
http://pre.google.com/p/tesseract-ocr/
Tesseract的C#包装器
http://www.pixel-technology.com/freeware/tessnet2/
Tesseract的Java包装器
http://sourceforge.net/projects/tessocrinjava/
尽管您可能不考虑自己使用第三方库来实现它,但仅集成第三方工具就有大量工作要做。还请记住,看似简单的事情(识别数字5与数字6)通常非常复杂;我们正在谈论成千上万行复杂的代码。至少,请查看tesseract的源代码,这将为您提供充分利用第三方库的充分理由。
这是另一个SO问题,可为您提供有关所涉及算法的一些想法:
https : //stackoverflow.com/questions/850717/what-are-some-popular-ocr-
algorithms



