`
- 浏览:
84973 次
- 性别:
- 来自:
上海
-
import java.util.HashMap;
import java.util.Map;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
import com.yao.http.HttpRequester;
import com.yao.http.HttpRespons;
/**
* JAVA中使用Htmlparse解析HTML文档,使用htmlparse遍历出HTML文档的所有超链接(<a>标记)。
*
* @author YYmmiinngg
*/
public class Test {
public static void main(String[] args) {
try {
/* 首先我们先使用HttpRequester类和HttpRespons类获得一个HTTP请求中的数据(HTML文档)。 可以从(http://download.csdn.net/source/321516)中下载htmlloader,该库中有上述类;或从我的《JAVA发送HTTP请求,返回HTTP响应内容,实例及应用》一文中摘取上述两JAVA类的代码。htmlparse可以从(http://download.csdn.net/source/321507)中下载
*/
Map<String, String> map = new HashMap<String, String>();
HttpRequester request = new HttpRequester();
HttpRespons hr = request.sendGet("http://www.baidu.com");
Parser parser = Parser.createParser(hr.getContent(), hr
.getContentEncoding());
try {
// 通过过滤器过滤出<A>标签
NodeList nodeList = parser
.extractAllNodesThatMatch(new NodeFilter() {
//实现该方法,用以过滤标签
public boolean accept(Node node) {
if (node instanceof LinkTag)//标记
return true;
return false;
}
});
// 打印
for (int i = 0; i < nodeList.size(); i++) {
LinkTag n = (LinkTag) nodeList.elementAt(i);
System.out.print(n.getStringText() + " ==>> ");
System.out.println(n.extractLink());
}
} catch (Exception e) {
e.printStackTrace();
}
} catch (Exception e) {
e.printStackTrace();
}
}
}
分享到:
Global site tag (gtag.js) - Google Analytics
相关推荐
抓去网页数据时使用,根据网页的结果抓取网页上的数据!
htmlparse 2.0 + 中文doc文档 天涯浪子
Winista.Htmlparse.dll,C#源码,HTML解析,开发工具是vs 2010
htmlparser是用来解析html文档,从html提取、替换等一系列功能的java jar ,此文档不尽包含htmlparser的用法,还包含了一些列的实例代码!
用于解析html网页数据。 作者说:ZHParseHtmlData这个类是我自己写的,解析html的。发现之前用过的TFHpple还有许多都有问题,有的GB2312或者其他编码会乱码或者是不规范的Xml或者不规范的html都解析不出来。现在...
htmlparse-1.5.jar 能用的jar 你值得拥有
httpClient和htmlparse获取网页数据使用jar
介绍了htmlParse的原理以及应用还有其中设计是应用到的设计模式
解析 在 HTML 解析器上工作。 这只是用 python 练习..我应该把它移到我的练习库中。
Python 网页解析HTMLParse的实例详解 使用python将网页抓取下来之后,下一步我们就应该解析网页,提取我们所需要的内容了,在python里提供了一个简单的解析模块HTMLParser类,使用起来也是比较简单的,解析语法没有...
html-react-parser 在服务器(Node.js)和客户端(浏览器)上均可使用HTML to React解析器: HTMLReactParser(string[, options])解析器将HTML字符串转换为一个或多个。 要将元素替换为另一个元素,请签出选项。例...
简单的介绍了htmlparse的原理以及应用
HtmlParser可用来解析html,但它并不认识所有标签,如font,strong和自定义标签...而遇到它不认识的标签时提取出来的内容只会是这个标签的开始标签.
Java代码使用HTTP请求HTML数据工具类,post提交方法,BASE64编码, post提交方法,带用户名密码验证信息,
HttpRequest Document读取xml HtmlParse AsyncTask ListView ProgressBar
htmlparse.jar httpClient.jar je.jar
主要介绍了Java HtmlParse提取标签中的值操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
wx-mina-html-view ...// 解析HTML字符串 const html = new HtmlParser('<p>hello world</p>').nodes this.setData({ html }) index.wxml index.wxss @import "../../html-view/index.wxss"; API new HtmlParse
实现搜索引擎用到,HTML页面的分析抓取