【www.bbyears.com--正则表达式】
例子1
新闻内容或者博客文章,如果显示摘要,需要去除内容的html格式标签,找到一个正则表达式,实现了:
代码如下/**
* 删除input字符串中的html格式
*
* @param input
* @param length
* @return
*/
public static String splitAndFilterString(String input) {
if (input == null || input.trim().equals("")) {
return "";
}
// 去掉所有html元素,
String str = input.replaceAll("\\&[a-zA-Z]{1,10};", "").replaceAll(
"<[^>]*>", "").replaceAll("[(/>)<]", "");
return str;
}
过滤掉所有script脚本的正则:
content.replaceAll("<script[^>]*?>[\\s\\S]*?<\\/script>", "")
过滤掉所有style的正则:
content.replaceAll("<[\\s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>", "");
过滤掉所有html标签,保留p和br标签。
content.replaceAll("?(?!br|/?p)[^>]*>", "");
过滤掉所有html标签,保留p标签。
content.replaceAll("?(?!/?p)[^>]*>", "");
例子2
代码如下import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class HtmlUtil {
private static final String regEx_script = "<script[^>]*?>[\\s\\S]*?<\\/script>"; // 定义script的正则表达式
private static final String regEx_style = "