网站建设 >

查看其它板块

java代码网页乱码 java页面乱码

java爬虫一段话里的部分字符乱码解决

1. 网络爬虫乱码的原因。

创新互联服务项目包括平川网站建设、平川网站制作、平川网页制作以及平川网络营销策划等。多年来，我们专注于互联网行业，利用自身积累的技术优势、行业经验、深度合作伙伴关系等，向广大中小型企业、政府机构等提供互联网行业的解决方案，平川网站推广取得了明显的社会效益与经济效益。目前，我们服务的客户以成都为中心已经辐射到平川省份的部分城市，未来相信会继续扩大服务区域并继续获得客户的支持与信任！

源网页的编码与抓取后的编码转换不一致。如果源网页是gbk编码的字节流，程序在我们抓取后直接用utf-8编码输出到存储文件，这必然会造成乱码，即当源网页编码与程序抓取后直接处理编码一致时，就不会出现乱码，然后统一字符编码后也就不会出现乱码。注意区分源网络代码A，程序B直接使用的代码，统一转换字符的代码C。

2. 是网页的服务器端代码。

B.捕获的数据原本是字节数组，由A编码，只有B=A才能保证不会出现乱码；否则，当字符集不兼容时，就会出现乱码字符。这一步常用于测试。

c、统一转码是指在获得网页的原始编码A后进行统一编码，主要是将每个网页的数据统一成一种编码，往往首选字符集较大的utf-8。

每个网页都有自己的代码，比如gbk，utf-8，iso8859-1，日本jp系统代码，西欧，俄语等等。爬行时，所有类型的代码都将被扩展。有的爬虫只是简单的识别网页，然后统一编码，有的则直接按照utf-8统一处理，不需要判断源网页，显然会造成乱码。

3. 乱码的解决方案。

根据原因找到解决办法很简单。

1) 确定源网页的代码a。

代码a通常位于网页的三个位置，即httpheader的内容、网页的元字符集和网页标题中的文档定义。获取源网页代码时，依次判断这三部分数据，从头到尾优先级相同。

理论上这是对的，但是国内有些网站不符合标准。比如写出来的gbk其实是utf-8，有的写出来是utf-8，其实是gbk。当然这是几个网站，但是确实存在。因此，在确定网页编码时，应该对这种特殊情况给予特殊处理，如中文检查、默认编码等策略。

在另一种情况下，如果以上三种都没有编码信息，一般使用第三方的网页编码智能识别工具，如cpdetector。原理是通过统计字节数组的特性来计算实际编码，有一定的准确率，但是我发现在实践中准确率还是很有限的。

但是综合以上三种编码确认方法后，中文乱码的问题几乎可以完全解决。在我的基于nutch1.6的网络爬虫系统中，经过统计，编码准确率可以达到99.99%，这也证明了上述方法和策略的可行性。

2) 程序通过代码b还原源网页数据。

显然，这里的B应该等于a，在java中，如果源网页的字节数组是source_byte_array，就会转换成stringstr=newstring(source_byte_array，B)。即这些字节数组对应的字符被正确编码显示在内存中，此时打印结果正常。此步骤通常用于调试或控制台输出测试。

3) 统一转码。

网络爬虫系统中有很多数据源。如果无法使用数据，它将被转换为其原始数据，如果这样做是浪费的。所以一般爬虫系统要对抓取的结果进行统一编码，做到一致，使用方便。此时，在(2)的基础上，可以进行统一的编码转换，在java中的实现如下。

源网页的字节数组是source_byte_array。

转换为普通字符串:stringnormal_source_str=newstring(source_byte_array，c)。这时候可以直接用javaapi存储，但是字符串往往不直接写。因为一般爬虫存储是将多个源网页存储在一个文件中，所以要记录字节偏移量，所以下一步。再将得到的str转换为统一的编码C格式的字节数组,则byte[] new_byte_array=normal_source_str.getBytes(C)即可，此时即可用java io api将数组写入文件，并记录相应的字节数组偏移量等，待真正使用时，直接io读取即可。

爬虫过程不仅会存在乱码问题，还会存在网站爬取涉及法律、IP受限，爬取行为受限等等问题，这个时候就需要不断去解决这些问题。

java web乱码怎么解决

最基本的乱码问题

这个乱码问题是最简单的乱码问题。一般新会出现。就是页面编码不一致导致的乱码。

Html代码：

＜%@ page language="java" pageEncoding="UTF-8"%＞? ＜%@ page contentType="text/html;charset=iso8859-1"%＞? ＜html＞? ＜head＞? ＜title＞中文问题＜/title＞? ＜meta http-equiv="Content-Type" content="text/html; charset=UTF-8"＞? ＜/head＞? ＜/head＞? ＜body＞? JSP中文编码问题解决方法详解? ＜/body＞? ＜/html＞?

三个地方的编码

第一个地方的编码格式为jsp文件的存储格式。Ecljpse会根据这个编码格式保存文件。并编译jsp文件，包括里面的汉字。

第二处编码为解码格式。因为存为UTF-8的文件被解码为iso8859-1，这样如有中文肯定出乱码。也就是必须一致。而第二处所在的这一行，可以没有。缺省也是使用iso8859-1的编码格式。所以如果没有这一行的话，“我是个好人”也会出现乱码。必须一致才可以。

第三处编码为控制浏览器的解码方式。如果前面的解码都一致并且无误的话，这个编码格式没有关系。有的网页出现乱码，就是因为浏览器不能确定使用哪种编码格式。因为页面有时候会嵌入页面，导致浏览器混淆了编码格式。出现了乱码。

表单使用Post方式提交后接收到的乱码问题

这个问题也是一个常见的问题。这个乱码也是tomcat的内部编码格式iso8859-1在捣乱，也就是说post提交时，如果没有设置提交的编码格式，则会以iso8859-1方式进行提交，接受的jsp却以utf-8的方式接受。导致乱码。既然这样的原因，下面有几种解决方式，并比较。

a. 接受参数时进行编码转换

String str = new String(request.getParameter("something").getBytes("ISO-8859-1"),"utf-8") ；

这样的话，每一个参数都必须这样进行转码。很麻烦。但确实可以拿到汉字。

b. 在请求页面上开始处，执行请求的编码代码

request.setCharacterEncoding("UTF-8")

把提交内容的字符集设为UTF－8。这样的话，接受此参数的页面就不必在转码了。直接使用

String str = request.getParameter("something")；

即可得到汉字参数。但每页都需要执行这句话。这个方法也就对post提交的有效果，对于get提交和上传文件时的enctype="multipart/form-data"是无效的。稍后下面单独对这个两个的乱码情况再进行说明。

c. 为了避免每页都要写request.setCharacterEncoding("UTF-8")，建议使用过滤器对所有jsp进行编码处理。这个网上有很多例子。请大家自己查阅。

表单get提交方式的乱码处理方式

如果使用get方式提交中文，接受参数的页面也会出现乱码，这个乱码的原因也是tomcat的内部编码格式iso8859-1导致。Tomcat会以get的缺省编码方式iso8859-1对汉字进行编码，编码后追加到url，导致接受页面得到的参数为乱码/、。

解决办法：

a. 使用上例中的第一种方式，对接受到的字符进行解码，再转码。

b. Get走的是url提交，而在进入url之前已经进行了iso8859-1的编码处理。要想影响这个编码则需要在server.xml的Connector节点增加useBodyEncodingForURI="true"属性配置，即可控制tomcat对get方式的汉字编码方式，上面这个属性控制get提交也是用request.setCharacterEncoding("UTF-8")所设置的编码格式进行编码。所以自动编码为utf-8，接受页面正常接受就可以了。但我认为真正的编码过程是，tomcat又要根据

＜Connector port="8080"maxThreads="150" minSpareThreads="25" maxSpareThreads="75"enableLookups="false" redirectPort="8443" acceptCount="100"debug="0" connectionTimeout="20000" useBodyEncodingForURI="true"disableUploadTimeout="true" URIEncoding=”UTF-8”/＞

里面所设置的URIEncoding=”UTF-8”再进行一次编码，但是由于已经编码为utf-8，再编码也不会有变化了。如果是从url获取编码，接受页面则是根据URIEncoding=”UTF-8”来进行解码的。

上传文件时的乱码解决

上传文件时，form表单设置的都是enctype="multipart/form-data"。这种方式以流方式提交文件。如果使用apach的上传组件，会发现有很多乱码想象。这是因为apach的先期commons-fileupload.jar有bug，取出汉字后进行解码，因为这种方式提交，编码又自动使用的是tomcat缺省编码格式iso-8859-1。但出现的乱码问题是：句号，逗号，等特殊符号变成了乱码，汉字如果数量为奇数，则会出现乱码，偶数则解析正常。

解决方式：

下载commons-fileupload-1.1.1.jar 这个版本的jar已经解决了这些bug。但是取出内容时仍然需要对取出的字符进行从iso8859-1到utf-8转码。已经能得到正常所有汉字以及字符。

Java代码关于url请求，接受参数的乱码

url的编码格式，取决于上面所说的URIEncoding=”UTF-8”。如果设定了这个编码格式，则意味着所有到url的汉字参数，都必须进行编码才可以。否则得到的汉字参数值都是乱码，例如一个链接：

Response.sendDerect（“/a.jsp?name=玫瑰妮子”）；

而在a.jsp里面直接使用 String name = request.getParameter（"name"）；

得到的就是乱码。因为规定了必须是utf-8才可以，所以，这个转向应该这样写：

Response.sendDerect（“/a.jsp?name=URLEncode.encode(“玫瑰妮子”,”utf-8”)；才可以。

如果不设置这个参数URIEncoding=”UTF-8”，会怎么样呢? 不设置则就使用了缺省的编码格式iso8859-1。问题又出来了，第一就是参数值的个数如果是奇数个数，则就可以正常解析，如果使偶数个数，得到最后字符就是乱码。还有就是如果最后一个字符如果是英文，则就能正常解析，但中文的标点符号仍出现乱码。权宜之计，如果您的参数中没有中文标点符号，则可以在参数值最后加一个英文符号来解决乱码问题，得到参数后再去掉这个最后面的符号。也可以凑或使用。

脚本代码关于url请求，接受到的参数乱码

脚本中也会进行页面转向的控制，也会涉及到附带参数，并在接受页面解析这个参数的情况。如果这个汉字参数不进行URIEncoding=”UTF-8”所指定的编码处理，则接受页面接受到的汉字也是乱码。脚本处理编码比较麻烦，必须有相应的编码脚本对应文件，然后调用脚本中的方法对汉字进行编码即可。

关于jsp在MyEclipse中打开的乱码问题

对于一个已经存在的项目，Jsp文件的存储格式可能是utf-8。如果新安装的eclipse，则缺省打开使用的编码格式都是iso8859-1。所以导致jsp里面的汉字出现乱码。这个乱码比较容易解决，直接到eclipse3.1的偏好设置里面找到general-〉edidor，设置为您的文件打开编码为utf-8即可。Eclipse会自动重新以新的编码格式打开。汉字即可正常显示。

关于html页面在eclipse中打开出现乱码情况

由于大部分页面都是由dreamweaver制作，其存储格式跟eclipse的识别有差别导致。一般这种情况，在eclipse中新建一个jsp，直接从dreamweaver复制页面内容粘贴到jsp即可。

Java代码出现了乱码怎么办？

运行java带有中文的代码就出现乱码，解决方式如下：

设置整个java工程的编码格式为utf-8，如下图：

设置html的编码格式为utf-8

分享名称：java代码网页乱码 java页面乱码
文章链接：http://cdkjz.cn/article/dddpgip.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

zzfdjwx.com 重庆网站建设公司成都App定制温江电信机房重庆移动网站建设免费收录网站成都富士康招工不锈钢防护栏达州做网站四川德阳主机托管

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询028-86922220

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

java代码网页乱码 java页面乱码

java爬虫一段话里的部分字符乱码解决

java web乱码怎么解决

Java代码出现了乱码怎么办？

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

java代码网页乱码 java页面乱码

java爬虫一段话里的部分字符乱码解决

java web乱码怎么解决

Java代码出现了乱码怎么办？

相关资讯

电力猫接路由器 电力猫接路由器没网

go语言项目运行 go语言 项目

怎么看一个域名是几级域名 怎么看一个域名是几级域名呢

路由器网络怎么选择 无线路由器怎么选择

腾讯云服务器搭建pi节点 腾讯云服务器搭建pi节点教程

云服务器开发安全吗可靠吗 云服务器开发安全吗可靠吗知乎

tk域名怎么没了 tk免费域名

腾讯云学生服务器更换系统 腾讯云学生服务器更换系统怎么弄

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

电力猫接路由器电力猫接路由器没网

go语言项目运行 go语言项目

怎么看一个域名是几级域名怎么看一个域名是几级域名呢

路由器网络怎么选择无线路由器怎么选择

腾讯云服务器搭建pi节点腾讯云服务器搭建pi节点教程

云服务器开发安全吗可靠吗云服务器开发安全吗可靠吗知乎

腾讯云学生服务器更换系统腾讯云学生服务器更换系统怎么弄

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接