Java 正则表达式 标签内的内容置空
语法: [wW]* 匹配所有字符包括换行符
目标:
场景之一: 使用com.lowagie.text.pdf 导出html到word上面的时候,对于表格的内容无法处理,会报错。要把带表格的标签及其内容去掉。
代码:
public static void main(String[] args) {
String content = "图片导出
n
n啦啦
n
n
nn
n发放
n
n| 大丰收 | n阿凡达 | n执行 | n打算 | n阿道夫 | n展旭 | n
| 安抚 | n啊 | n的 | n大 | n发 | n发送到 | n
| 阿道夫 | nad | n答复 | n阿斯蒂芬 | n发多少 | n发的 | n
| 啊 | n的 | n更舒服的 | n国防生的 | n萨芬的 | n阿斯蒂芬 | n
| 啊 | n是大法官 | n十多个 | n杀伐果断 | n杀伐果断 | n用复合弓的 | n
nn
第三方
n"; System.out.println("==============="); String repalceStr = matchReplaceWithLabel(content, "table"); System.out.println("repalceStr: "+repalceStr); } public static String matchReplaceWithLabel( String content, String label) { String pattern = "<"+label+"([\w\W]*)" +""+label+">"; System.out.println(pattern); Pattern p = Pattern.compile(pattern); Matcher m = p.matcher(content); StringBuffer sb = new StringBuffer(); while (m.find()) { String group = m.group(); m.appendReplacement(sb, group == null ? "" : ""); } m.appendTail(sb); return sb.toString(); }
结果:
repalceStr:图片导出
啦啦
发放
第三方
总结:
这边难的是知道[wW]* 匹配所有字符包括换行符这个语法,传对应的标签,这样html里面的,需要置空的内容,都可以处理,或是替换为想要的内容。



