在Java中使用Jsoup实现一个爬虫功能-快上网网站建设公司

在Java中使用Jsoup实现一个爬虫功能

在Java中使用Jsoup实现一个爬虫功能？相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。

成都创新互联基于分布式IDC数据中心构建的平台为众多户提供BGP机房服务器托管四川大带宽租用成都机柜租用成都服务器租用。

Java 爬虫工具Jsoup详解

Jsoup是一款 Java 的 HTML 解析器，可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API，可通过 DOM，CSS 以及类似于 jQuery 的操作方法来取出和操作数据。

jsoup 的主要功能如下：

1. 从一个 URL，文件或字符串中解析 HTML；
2. 使用 DOM 或 CSS 选择器来查找、取出数据；
3. 可操作 HTML 元素、属性、文本；

jsoup 是基于 MIT 协议发布的，可放心使用于商业项目。

jsoup 可以从包括字符串、URL 地址以及本地文件来加载 HTML 文档，并生成 Document 对象实例。

简单而言，Jsoup就是先取html页面代码然后解析这些页面通过Jsoup携带的满足我们绝大多数需求的各种选择器从这个页面中获取我们所需要的重要数据的一款功能强大的html解析器，但也只是相对而言，这里的页面这是死的静态页面，如果你想获取动态生成的页面数据那么你得用到其他的java 爬虫技术，我会不定时更新这些技术一起探讨。下面我们来具体谈谈如何运用Jsoup

一、如何取页面

Jsoup提供了用来解析html页面的方法 parse(),我们通过解析它可以获取整个页面的dom对象，通过这个对象来获取你所需要的页面所须有的参数。获取页面的方法有很多，这里就简单的列举几个：

① 通过Jsoup携带的connect()方法

String htmlPage = Jsoup.connect("https://www.baidu.com").get().toString();

这个方法说需要的参数就是一个String类型的url链接，但是你的注意把这些链接的protrol加上，以免问题，其实这个方法解决了我们很多问题，我们完全可以把Jsoup解析html抽取成一段通用工具类,然后通过改变拼接的url参数获取到很多我们想要的东西，举个例子:京东和淘宝的商品链接都是固定的，通过改变其三方商品ID来获取商品详情参数。

String url = "https://item.jd.com/11476104681.html";

完全可以替换成

String url = "https://item.jd.com/"+skuId+".html";

通过改变他的三方商品ID你就可以获取这个页面一些基本数据，像商品的图片和标题什么的都可以轻松获取，而价格因为做了一些相关方面的处理得动态的获取，这里先不做说明，后面慢慢会讲解。

②通过httpclient直接获取这个页面的静态页面

先贴一部分httpclient获取页面工具

import java.io.IOException;
import java.io.UnsupportedEncodingException;
import java.util.ArrayList;
import java.util.List;
import java.util.Map;
import java.util.Set;

import org.apache.http.HttpEntity;
import org.apache.http.HttpResponse;
import org.apache.http.NameValuePair;
import org.apache.http.ParseException;
import org.apache.http.client.ClientProtocolException;
import org.apache.http.client.entity.UrlEncodedFormEntity;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.client.methods.HttpPost;
import org.apache.http.client.methods.HttpUriRequest;
import org.apache.http.impl.client.DefaultHttpClient;
import org.apache.http.message.BasicNameValuePair;
import org.apache.http.protocol.HTTP;
import org.apache.http.util.EntityUtils;
/**
 * HTTP请求工具类.
 * @author LuoLong
 * @since 20150513
 *
 */
public class HttpClientUtils {
  /**
   * post方式请求.
   * @param url 请求地址.
   * @param params 请求参数
   * @return String
   */
  public static String post(String url, Map params) {
    DefaultHttpClient httpclient = new DefaultHttpClient();
    String body = null;

    HttpPost post = postForm(url, params);

    body = invoke(httpclient, post);

    httpclient.getConnectionManager().shutdown();

    return body;
  }

  /**
   * get方式请求.
   * @param url 请求地址.
   * @return String
   */
  public static String get(String url) {
    DefaultHttpClient httpclient = new DefaultHttpClient();
    String body = null;

    HttpGet get = new HttpGet(url);
    body = invoke(httpclient, get);

    httpclient.getConnectionManager().shutdown();

    return body;
  }
  /**
   * 请求方法.
   * @param httpclient DefaultHttpClient.
   * @param httpost 请求方式.
   * @return String
   */
  private static String invoke(DefaultHttpClient httpclient,
      HttpUriRequest httpost) {

    HttpResponse response = sendRequest(httpclient, httpost);
    String body = paseResponse(response);

    return body;
  }

  /**
   * 
   * @param response
   * @return
   */
  @SuppressWarnings({ "deprecation", "unused" })
  private static String paseResponse(HttpResponse response) {
    HttpEntity entity = response.getEntity();

    String charset = EntityUtils.getContentCharSet(entity);

    String body = null;
    try {
      body = EntityUtils.toString(entity);
    } catch (ParseException e) {
      e.printStackTrace();
    } catch (IOException e) {
      e.printStackTrace();
    }

    return body;
  }

  private static HttpResponse sendRequest(DefaultHttpClient httpclient,
      HttpUriRequest httpost) {
    HttpResponse response = null;

    try {
      response = httpclient.execute(httpost);
    } catch (ClientProtocolException e) {
      e.printStackTrace();
    } catch (IOException e) {
      e.printStackTrace();
    }
    return response;
  }

  @SuppressWarnings("deprecation")
  private static HttpPost postForm(String url, Map params) {

    HttpPost httpost = new HttpPost(url);
    List nvps = new ArrayList();

    Set keySet = params.keySet();
    for (String key : keySet) {
      nvps.add(new BasicNameValuePair(key, params.get(key)));
    }
    try {
      httpost.setEntity(new UrlEncodedFormEntity(nvps, HTTP.UTF_8));
    } catch (UnsupportedEncodingException e) {
      e.printStackTrace();
    }

    return httpost;
  }
}

通过get()方法就可以获取html页面的String类型数据

String content = HttpClientUtils.get(url);
或者你可以直接把页面下载到本地，然后解析此html文档获取
File input = new File(FilePath);
Document doc = Jsoup.parse(input, "UTF-8", url);

二、解析页面获取需要的数据

当你获取到页面的dom对象后，那么下面的操作就非常简单了，你只需要通过操作这个dom对象来获取页面所有的静态资源，动态加载的资源不在此列，后面在做讲解。

先贴一段百度网页的源代码：

method description getElementsByClass() 通过Class属性来定位元素，获取的是所有带这个class属性的集合 getElementsByTag(); 通过标签名字来定位元素，获取的是所有带有这个标签名字的元素结合 getElementById(); 通过标签的ID来定位元素，这个是精准定位，因为页面的ID基本不会重复 getElementsByAttributeValue(); 通过属性和属性名来定位元素，获取的也是一个满足条件的集合; getElementsByAttributeValueMatching() 通过正则匹配属性

//获取页面对象 String startPage="https://www.baidu.com"; Document document = Jsoup.connect(startPage).userAgent("Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36").get(); //定位元素父级 Element parentElement = document.getElementById("u"); //定位具体元素 Element titleElement = parentElement.getElementsByTag("a").get(0); //获取所需数据 String title = titleElement.text(); System.out.println(title);

String startPage="https://www.baidu.com"; Document document = Jsoup.connect(startPage).userAgent("Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36").get(); Element elementById = document.getElementById("qrcode"); String text = elementById.getAllElements().get(0).getAllElements().get(1).getElementsByTag("b").text(); System.out.println(text);

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

在Java中使用Jsoup实现一个爬虫功能

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

在Java中使用Jsoup实现一个爬虫功能

相关资讯

html5中语义化标签有什么用-创新互联

ubuntu服务器中文乱码怎么办-创新互联

Unity3DIOS下保存和读取资源（保存到文件夹目录）-创新互联

使用yum安装指定php版本的方法-创新互联

GridView中如何加上CheckBox的全选功能-创新互联

从0到1搭建Element的后台框架的方法步骤-创新互联

怎么安装apache+mysql+php+ssl服务器-创新互联

java抽象类与接口的区别总结-创新互联

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接