python与html交互|python实现html代码转义转换的例子

更新时间：2019-08-27 来源：python 手机版 字体：大中小

【www.bbyears.com--python】

之前记录了从网上翻来的 Python HTMLParser处理HTML转义字符文档。不过在对带有中文字符的内容进行处理的时候会报错，代码如下：

代码如下

# cat html.py
#/usr/bin/python
#coding=utf-8
import HTMLParser
html_parser = HTMLParser.HTMLParser()
title = "eclipse功能<template>学习。e.g : 快速在代码中插入时间戳 - 361way.com"
newtitle = html_parser.unescape(title)
print newtitle

报错内容如下：

代码如下

Traceback (most recent call last):
File "html.py", line 7, in
    newtitle = html_parser.unescape(title)
File "/usr/lib64/python2.6/HTMLParser.py", line 390, in unescape
    return re.sub(r"&(#?[xX]?(?:[0-9a-fA-F]+|w{1,8}));", replaceEntities, s)
File "/usr/lib64/python2.6/re.py", line 151, in sub
    return _compile(pattern, 0).sub(repl, string, count)
UnicodeDecodeError: "ascii" codec can"t decode byte 0xe5 in position 7: ordinal not in range(128)

解决方法如下：

代码如下

#/usr/bin/python
#coding=utf-8
import HTMLParser
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
html_parser = HTMLParser.HTMLParser()
title = "eclipse功能<template>学习。e.g : 快速在代码中插入时间戳 - SegmentFault"
newtitle = html_parser.unescape(title)
print newtitle

需要载入sys模块，重新设置默认编码为utf8，就不会出错了。不过要处理的内容只不过是一个文章的title部分，而常用的html转义内容也就如下几个：

字符十进制转义字符
" " "
& & &
< < <
> > >
不断开空格(non-breaking space)

注：不常用的具体可以参看开源中国在线工具上的html转义字符表。

于是决定使用python的replace功能实现一个简单的转义功能函数，具体如下：

代码如下 #/usr/bin/python
#coding=utf-8
def replace_html(s):
    s = s.replace(""",""")
    s = s.replace("&","&")
    s = s.replace("<","<")
    s = s.replace(">",">")
    s = s.replace(" "," ")
    s = s.replace(" - 361way.com","")
    print s
replace_html(title)

优点就是快速简洁，不依赖于模块，实用时也无需再reload sys模块指定默认编码。

本文来源：http://www.bbyears.com/jiaocheng/64601.html

链接：http://www.bbyears.com/jiaocheng/64601.html
python与html交互|python实现html代码转义转换的例子(转载时请注明本文出处及链接)

猜你感兴趣

百度快照更新一次|百度快照更新慢如何让快照隔日更新 2019-08-27
[javascript学习指南]java将数据转成json编码格式技术实例教程 2019-08-27
[oracle闪回恢复数据]浅析Oracle数据库闪回删除表原理 2019-08-27
暗黑黎明宝石怎么获得_暗黑黎明宝石怎么获得暗黑黎明高级宝石获得方法介绍 2019-08-27
【python 获取当前时间】python获取和自动插入wordpress tags标签例子 2019-08-27
[centos6.6下安装mysql]CentOS6.6下安装Redmine2.6(整合Apache2.4)的步骤 2019-08-27
jquery选择器|jQuery中noConflict解决冲突问题 2019-08-27
【放开那妖精手游声望怎么获得】放开那妖精手游声望怎么获得获得声望方法攻略 2019-08-27
jquery与dom对象的区别|jQuery与DOM对象的互相转换的例子 2019-08-27
iphone6plus黑白屏幕在哪里_iPhone6Plus黑白屏幕在哪设置?iphone6黑白屏幕设置方法 2019-08-27

本类排行

本类最新

更多>>

python与html交互|python实现html代码转义转换的例子

猜你感兴趣

热门标签

本类排行

本类最新