如果您在谈论标签剥离,那么不必担心
<script>标签之类的事情就相对简单了。如果您只需要显示不带标签的文本,则可以使用正则表达式完成此操作:
<[^>]*>
如果您确实需要担心
<script>标签之类的问题,那么您将需要比正则表达式更强大的功能,因为您需要跟踪状态,更像是上下文无关语法(CFG)。虽然您可能可以通过“从左到右”或非贪婪匹配来实现。
如果您可以使用正则表达式,那么有很多网页都有很好的信息:
- http://weblogs.asp.net/rosherove/archive/2003/05/13/6963.aspx
- http://www.google.com/search?hl=zh_CN&q=html+tag+stripping+&btnG=搜索
如果您需要CFG的更复杂的行为,我建议您使用第三方工具,但不幸的是,我不知道要推荐哪种工具。



