[javascript学习指南]java利用url实现网页内容的抓取

更新时间：2021-07-21 来源：js教程手机版 字体：大中小

【www.bbyears.com--js教程】

闲来无事，刚学会把git部署到远程服务器，没事做，所以简单做了一个抓取网页信息的小工具，里面的一些数值如果设成参数的话可能扩展性能会更好！希望这是一个好的开始把，也让我对字符串的读取掌握的更加熟练了，值得注意的是JAVA1.8 里面在使用String拼接字符串的时候，会自动把你要拼接的字符串用StringBulider来处理，大大优化了String 的性能，闲话不多说，show my XXX code～

运行效果：

首先打开百度百科，搜索词条，比如“演员”，再按F12查看源码

然后抓取你想要的标签，注入LinkedHashMap里面就ok了，很简单是吧！看看代码罗

代码如下

importjava.io.BufferedReader;

importjava.io.IOException;

importjava.io.InputStreamReader;

importjava.net.HttpURLConnection;

importjava.net.URL;

importjava.util.*;

/**

* Created by chunmiao on 17-3-10.

publicclassReadBaiduSearch {

//储存返回结果

privateLinkedHashMap mapOfBaike;

//获取搜索信息

publicLinkedHashMap getInfomationOfBaike(String infomationWords)throwsIOException {

mapOfBaike = getResult(infomationWords);

returnmapOfBaike;

}

//通过网络链接获取信息

privatestaticLinkedHashMap getResult(String keywords)throwsIOException {

//搜索的url

String keyUrl ="http://baike.baidu.com/search?word="+ keywords;

//搜索词条的节点

String startNode ="

//词条的链接关键字

String keyOfHref ="href=\"";

//词条的标题关键字

String keyOfTitle ="target=\"_blank\">";

String endNode ="

booleanisNode =false;

String title;

String href;

String rLine;

LinkedHashMap keyMap =newLinkedHashMap();

//开始网络请求

URL url =newURL(keyUrl);

HttpURLConnection urlConnection = (HttpURLConnection) url.openConnection();

InputStreamReader inputStreamReader =newInputStreamReader(urlConnection.getInputStream(),"utf-8");

BufferedReader bufferedReader =newBufferedReader(inputStreamReader);

//读取网页内容

while((rLine = bufferedReader.readLine()) !=null){

//判断目标节点是否出现

if(rLine.contains(startNode)){

isNode =true;

}

//若目标节点出现，则开始抓取数据

if(isNode){

//若目标结束节点出现，则结束读取，节省读取时间

if(rLine.contains(endNode)) {

//关闭读取流

bufferedReader.close();

inputStreamReader.close();

break;

}

//若值为空则不读取

if(((title = getName(rLine,keyOfTitle)) !="") && ((href = getHref(rLine,keyOfHref)) !="")){

keyMap.put(title,href);

}

returnkeyMap;

}

//获取词条对应的url

privatestaticString getHref(String rLine,String keyOfHref){

String baikeUrl ="http://baike.baidu.com";

String result ="";

if(rLine.contains(keyOfHref)){

//获取url

for(intj = rLine.indexOf(keyOfHref) + keyOfHref.length();j < rLine.length()&&(rLine.charAt(j) !='\"');j ++){

result += rLine.charAt(j);

}

//获取的url中可能不含baikeUrl,如果没有则在头部添加一个

if(!result.contains(baikeUrl)){

result = baikeUrl + result;

}

returnresult;

}

//获取词条对应的名称

privatestaticString getName(String rLine,String keyOfTitle){

String result ="";

//获取标题内容

if(rLine.contains(keyOfTitle)){

result = rLine.substring(rLine.indexOf(keyOfTitle) + keyOfTitle.length(),rLine.length());

//将标题中的内容含有的标签去掉

result = result.replaceAll("|||","");

}

returnresult;

}

本文来源：http://www.bbyears.com/wangyezhizuo/131082.html

链接：http://www.bbyears.com/wangyezhizuo/131082.html
[javascript学习指南]java利用url实现网页内容的抓取(转载时请注明本文出处及链接)

猜你感兴趣

[魂斗罗归来军团试炼]魂斗罗归来军团贡献获取攻略军团币怎么得 2021-07-21
努比亚z17配置参数|一加5和努比亚z17有什么区别哪个更好 2021-07-21
电动车电池修复方法_iPhone电池修复方法 2021-07-21
【oppo手机怎么装卡】oppo宝卡怎么申请办理 oppo宝卡多少钱 2021-07-21
下载新版高德地图|高德地图新版发布摩拜单车入驻 2021-07-21
查看变量类型的python内置函数是|浅谈python内置变量-reversed(seq) 2021-07-21
【小米6亮银探索版怎么用】小米6亮银探索版怎么样小米6亮银探索版多少钱 2021-07-21
[腾讯视频]腾讯qim怎么玩 2021-07-21
【小米9续航怎么样】续航神机小米Max 2开放购买现货管够 2021-07-21
js从输入框读取内容比较两个数字的大小_js从输入框读取内容,比较两个数字的大小方法 2021-07-21

本类排行

本类最新

更多>>

[javascript学习指南]java利用url实现网页内容的抓取

猜你感兴趣

热门标签

本类排行

本类最新