博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
转 nutch网页快照乱码解决方法
阅读量:7013 次
发布时间:2019-06-28

本文共 438 字,大约阅读时间需要 1 分钟。

修改apache-tomcat-7.0.55\webapps\nutch-1.2下的cached.jsp

将content = new String(bean.getContent(details)) 

修改为content = new String(bean.getContent(details),"utf-8")

在画红框的地方加上UTF-8即可

以下内容参考:进行总结

如果改为UTF-8后如果为gb2312、gbk等页面将会出现乱码

然后还有一些文章是对Metadata修改parseDate的contentmeta来实现获取正确的编码方式,这个思路是非常正确的,但是还是有一点问题,仍然会存在一些gb2312的页面出现乱码,下面对网页快照乱码进行最终的一个简单的解决办法:

修改cache.jsp如下:

上面画红框的是修改后的内容

蓝框是原始内容

转于 http://blog.csdn.net/witsmakemen/article/details/8187541 

你可能感兴趣的文章
Go -- runtime.Gosched()的作用分析
查看>>
Java Lambda 表达式 对 Map 对象排序
查看>>
WIndows 使用VS编译 Lua5
查看>>
转 VB ListView控件各种操作详解
查看>>
查看name的状态,是属于active还是standby
查看>>
<LeetCode OJ> 337. House Robber III
查看>>
PSR规范
查看>>
[Javascript] this in Function Calls
查看>>
MinGW32和64位交叉编译环境的安装和使用
查看>>
laravel 增加不存在数据库的字段
查看>>
什么是“单播”“组播”和“多播”
查看>>
flex---->图表控件
查看>>
Android Developers:在命令行构建和运行
查看>>
firefox 不识别background-position-y / background-position-x
查看>>
分析函数调用关系图(call graph)的几种方法
查看>>
Dynamic Web Module 3.0 requires Java 1.6 or newer
查看>>
11.0592M晶振与12M晶振
查看>>
Web Service学习笔记
查看>>
[转帖]cocos2D-X源码分析之从cocos2D-X学习OpenGL(3)----BATCH_COMMAND
查看>>
A380上11万一张的机票什么享受?来看看
查看>>