iText官方网站上有3个涉及亚洲语言的XML
Worker示例。它们解析包含汉字的XHTML文件,但是应该很容易将它们适应越南语示例。
您可以在此处找到要解析的HTML文件:
- hero.html
- hero2.html
这两个文件都包含以下文本:
长空(断剑),秦王残剑(Flying Snow),飞雪(Moon),如月(King)和秦王(Sky)。
在第一种情况下,使用CSS定义字体:
<span >長空</span>
在第二种情况下,未定义特定字体:
<body><p>長空 (Broken Sword), 秦王殘劍 (Flying Snow), 飛雪 (Moon), 如月 (the King), and 秦王 (Sky).</p></body>
这些文件包含UTF-8字符,因此我们将像这样解析它们:
XMLWorkerHelper.getInstance().parseXHtml(writer, document, new FileInputStream(HTML), Charset.forName("UTF-8"));您需要的第一件事是支持越南字符的字体。这是iText无法帮您的。在HTML文件中,您已经定义了Helvetica,但这是标准的Type1字体,使用iText时不会嵌入它,并且不知道如何绘制越南字形。那永远都行不通。
第一个示例D07_ParseHtmlAsian将自动搜索名为的字体
MSMincho。如果找到该字体(例如,因为您
msmincho.ttc在Windows字体目录中,则该字体会显示在PDF中)。参见hero.pdf。如果找不到带有该名称的字体,则该字形将不可见,因为您没有为这些字形提供任何字体程序。
第二个示例D07bis_ParseHtmlAsian提供了一种解决方法,以防您
MSMincho无处不在。在这种情况下,您必须使用
XMLWorkerFontProvider并注册一个可以代替的字体
MSMincho。例如:我们使用存储在文件中的字体
cfmingeb.ttf并分配别名
MS Mincho:
XMLWorkerFontProvider fontProvider = new XMLWorkerFontProvider(XMLWorkerFontProvider.DONTLOOKFORFONTS);fontProvider.register("resources/fonts/cfmingeb.ttf", "MS Mincho");生成的文件asian.pdf与我们期望的略有不同,但是现在我们至少可以看到中文字形。
在第三个示例中,HTML文件没有告诉我们有关需要使用的字体的任何信息。我们将使用CSS定义字体,如下所示:
CSSResolver cssResolver = new StyleAttrCSSResolver();CssFile cssFile = XMLWorkerHelper.getCSS(new ByteArrayInputStream("body {font-family:tsc fming s tt}".getBytes()));cssResolver.addCss(cssFile);现在,正文中的所有文本将使用TSC FMing S TT字体(存储在文件中
cfmingeb.ttf)。您可以在生成的PDF
asian2.pdf中看到差异。



