网站建设 >

查看其它板块

java解析html代码 java解析html内容

使用java怎么读取html文件内容

java可以使用jsoup、htmlparser等工具进行html的读取和解析，以下是详细说明：

创新互联公司坚持“要么做到，要么别承诺”的工作理念，服务领域包括：成都做网站、成都网站设计、企业官网、英文网站、手机端网站、网站推广等服务，满足客户于互联网时代的乐昌网站设计、移动媒体设计的需求，帮助企业找到有效的互联网解决方案。努力成为您成熟可靠的网络建设合作伙伴！

1、jsoup 是一款 Java 的HTML 解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于JQuery的操作方法来取出和操作数据。据说它是基于MIT协议发布的。

jsoup的主要功能如下：

从一个URL，文件或字符串中解析HTML；

使用DOM或CSS选择器来查找、取出数据；

可操作HTML元素、属性、文本；

示例代码：

Document doc = Jsoup.parse(input, "UTF-8", "");

Element content = doc.getElementById("content");

Elements links = content.getElementsByTag("a");

for (Element link : links) {

String linkHref = link.attr("href");

String linkText = link.text();

}

java中解析html代码提取字符串

package test;

public class JButtonTest

{

public static void main ( String[] args )

{

String regex = "[\\s\\S]+\\property\\s+name[\\=\'\"]+label[^\\]+\\([^\\]+)\\\\/property\\[\\s\\S]*";

String input = "property name=\"name\"\r\nprojectNo\r\n/property\r\nproperty name=\"property\"\r\n projectNo\r\n/property\r\nproperty name=\"label\"\r\n 项目编号\r\n/property\r\neditor /";

System.out.println (input.replaceAll (regex, "$1"));

}

}

java解析html是jsoup还是htmlparse还是其他的什么

用jsoup解析html或者htmlparse，不过比较难用，jsoup是jquery语法比较方便。

JAVA解析html

吧源文件找到，去掉html的符号就可以啦。给你看一段我写的，写的不好，还得改呢(*^__^*) 嘻嘻……：

public String HtmlToTextGb2312(String inputString)

{

String htmlStr = inputString; //含html标签的字符串

String textStr ="";

Pattern p_script;

Matcher m_script;

Pattern p_style;

Matcher m_style;

Pattern p_html;

Matcher m_html;

Pattern p_houhtml;

Matcher m_houhtml;

Pattern p_spe;

Matcher m_spe;

Pattern p_blank;

Matcher m_blank;

Pattern p_table;

Matcher m_table;

Pattern p_enter;

Matcher m_enter;

try {

String regEx_script = "[\\s]*?script[^]*?[\\s\\S]*?[\\s]*?\\/[\\s]*?script[\\s]*?";

//定义script的正则表达式.

String regEx_style = "[\\s]*?style[^]*?[\\s\\S]*?[\\s]*?\\/[\\s]*?style[\\s]*?";

//定义style的正则表达式.

String regEx_html = "[^]+";

//定义HTML标签的正则表达式

String regEx_houhtml = "/[^]+";

//定义HTML标签的正则表达式

String regEx_spe="\\[^;]+;";

//定义特殊符号的正则表达式

String regEx_blank=" +";

//定义多个空格的正则表达式

String regEx_table="\t+";

//定义多个制表符的正则表达式

String regEx_enter="\n+";

//定义多个回车的正则表达式

p_script = Pattern.compile(regEx_script,Pattern.CASE_INSENSITIVE);

m_script = p_script.matcher(htmlStr);

htmlStr = m_script.replaceAll(""); //过滤script标签

p_style = Pattern.compile(regEx_style,Pattern.CASE_INSENSITIVE);

m_style = p_style.matcher(htmlStr);

htmlStr = m_style.replaceAll(""); //过滤style标签

p_html = Pattern.compile(regEx_html,Pattern.CASE_INSENSITIVE);

m_html = p_html.matcher(htmlStr);

htmlStr = m_html.replaceAll(""); //过滤html标签

p_houhtml = Pattern.compile(regEx_houhtml,Pattern.CASE_INSENSITIVE);

m_houhtml = p_houhtml.matcher(htmlStr);

htmlStr = m_houhtml.replaceAll(""); //过滤html标签

p_spe = Pattern.compile(regEx_spe,Pattern.CASE_INSENSITIVE);

m_spe = p_spe.matcher(htmlStr);

htmlStr = m_spe.replaceAll(""); //过滤特殊符号

p_blank = Pattern.compile(regEx_blank,Pattern.CASE_INSENSITIVE);

m_blank = p_blank.matcher(htmlStr);

htmlStr = m_blank.replaceAll(" "); //过滤过多的空格

p_table = Pattern.compile(regEx_table,Pattern.CASE_INSENSITIVE);

m_table = p_table.matcher(htmlStr);

htmlStr = m_table.replaceAll(" "); //过滤过多的制表符

p_enter = Pattern.compile(regEx_enter,Pattern.CASE_INSENSITIVE);

m_enter = p_enter.matcher(htmlStr);

htmlStr = m_enter.replaceAll(" "); //过滤过多的制表符

textStr = htmlStr;

}catch(Exception e)

{

System.err.println("Html2Text: " + e.getMessage());

}

return textStr;//返回文本字符串

}

Java解析html问题

感觉上你这里应该是有点问题的：

一、你在while判断的时候会让reader往后读一行的数据；然后在里面执行的时候又走一行；这就可能出现原本你的while里面判断的时候有值，但是在里面执行的时候已经没有值了。

二、如果你的文件里面有一行是空的，不满足while的条件，是不是程序到这里就被中断了呢？

其他的问题也没有发现什么。你看一下吧。

java如何解析html文档

import java.io.*;

import java.util.*;

import javax.swing.text.*;

import javax.swing.text.html.*;

import javax.swing.text.html.parser.*;

import javax.swing.text.html.HTMLEditorKit.ParserCallback;

public class Parser extends ParserCallback { //继承ParserCallback，解析结果驱动这些回调方法

protected String base;

protected boolean isImg = false;

protected boolean isParagraph = false;

protected static VectorString element = new VectorString();

protected static String paragraphText = new String();

public Parser() {

}

public static String getParagraphText() {

return paragraphText;

}

public void handleComment(char[] data, int pos) {

}

public void handleEndTag(HTML.Tag t, int pos) {

if (t == HTML.Tag.P) {

if (isParagraph) {

isParagraph = false;

}

} else if (t == HTML.Tag.IMG) {

if (isImg) {

isImg = false;

}

}

}

public void handleError(String errorMsg, int pos) {

}

public void handleSimpleTag(HTML.Tag t, MutableAttributeSet a, int pos) {

handleStartTag(t, a, pos);

}

public void handleStartTag(HTML.Tag t, MutableAttributeSet a, int pos) {

if (t == HTML.Tag.P) {

isParagraph = true;

} else if ((t == HTML.Tag.IMG)) {

String src = (String) a.getAttribute(HTML.Attribute.SRC);

if (src != null) {

element.addElement(src);

isImg = true;

}

}

}

public void handleText(char[] data, int pos) {

if (isParagraph) {

String tempParagraphText = new String(data);

if (paragraphText != null) {

element.addElement(tempParagraphText);

;

}

}

}

private static void startParse(String sHtml) {

try {

ParserDelegator ps = new ParserDelegator();//负责每次在调用其 parse 方法时启动一个新的 DocumentParser

HTMLEditorKit.ParserCallback parser = new Parser();//解析结果驱动这些回调方法。

ps.parse(new StringReader(sHtml), parser, true);//解析给定的流并通过解析的结果驱动给定的回调。

//System.out.println(getParagraphText());

Vector link = element;

for (int i = 0; i link.size(); i++) {

System.out.println("----haha-----");

System.out.println(link.get(i));

}

} catch (Exception e) {

e.printStackTrace();

}

}

public static void main(String args[]) {

try {

String filename = "D://blogbaby.htm";

BufferedReader brd = new BufferedReader(new FileReader(filename));

char[] str = new char[50000];

brd.read(str);

String sHtml = new String(str);

startParse(sHtml);

} catch (Exception e) {

e.printStackTrace();

}

}

}

新闻名称：java解析html代码 java解析html内容
分享地址：http://cdkjz.cn/article/hhcisg.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

业务热线：400-028-6601 / 大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

成都做商城网站网络推广公司企业手机网站建设成都h5建站开发做手机网站教育网站设计方案眉山服务器托管发光字制作网站营销网站建设方案

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询400-028-6601

成都快上网科技有限公司-四川网站建设设计公司 | 蜀ICP备19037934号 Copyright 2020,ALL Rights Reserved cdkjz.cn | 成都网站建设 | © Copyright 2020版权所有.

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图