ApacheTika是最佳选择。Apache最近从现有项目中提取了许多子项目并将其公开。提卡(Tika)是其中之一,以前是Apache
Lucene的组件。由于Apache的支持和声誉以及广泛使用的父项目Lucene,它肯定是一个很好的选择。此外,它是开源的。
Apache Tika网站的简要介绍:
Apache Tika™工具箱使用现有的解析器库从各种文档中检测并提取元数据和结构化文本内容。
支持的格式有:
HyperText Markup LanguageXML and derived formatsMicrosoft Office document formatsOpendocument FormatPortable document FormatElectronic Publication FormatRich Text FormatCompression and packaging formatsText formatsAudio formatsImage formatsVideo formatsJava class files and archivesThe mbox format



