Cloudflare缓存全站设置

本文参考了萌精灵的文章和cloudflare官方说明。

CloudFlare 默认只对静态资源进行缓存。动态资源是默认不缓存的。如果你的内容基本是静态的或者不在意实时更新的话,可以使用 CloudFlare 的页面规则设置缓存所有内容。免费用户可以设置3条页面规则,Pro 用户可以使用 30 条规则。

1、添加新的页面规则。

cf_1.png
继续阅读

火车采集器图片绝对地址问题

火车采集器在采集图片ftp上传的时候,经常容易出现图片路径的错误,导致发布后的文章图片404错误。

以wordpress为例,设置如下,图片路径一般就不会错!

  1. 内容采集规则中,将相对地址补全为绝对地址,下载图片

2. FTP文件上传配置

3. 文件图片下载路径配置

搞定!

Fiddler夜神模拟器抓包APP(xposed+justTrustMe解决证书安全问题)

网上搜集的解决方法,亲测对部分APP有效,但是有些app还是会提示网络错误问题,目前没有找到很好的解决方法。

  1. 电脑安装Fiddler
  2. 安装夜神模拟器
    注意Android版本选择5
  3. 安装xposed
    https://pan.baidu.com/s/1snjKwfUcHCBNtEDwvCCa2w
    提取码:2lx9
    安装后重启
  4. 安装justTrustMe
    https://github.com/Fuzion24/JustTrustMe/releases
    安装之后在xposed模块中勾选
  5. 模拟器设置里找到WLAN网络设置,鼠标左键长按选择修改网络,配置代理
在这里插入图片描述

安装证书

在这里插入图片描述

CSS实现鼠标悬停展示二维码

两种方法,我目前在用的是第二种。结合wordpress自动生成二维码的插件,能实现很多好玩的功能。

特点

1、纯CSS实现二维码展示功能,减少加载JS;

2、使用CSS3 transform 属性;

第一步

在需要展示二维码的地方添加如下代码,其中<a>标签内容可以根据需要修改成图片等,href=”javascript:”表示<a>标签作为按钮使用,不做跳转,实现url访问拦截。

<a class="weixin" href="javascript:">
    wechat
</a>

第二步

在样式表style.css中添加如下代码

/*微信二维码*/
a.weixin {
	position: relative;
}

.weixin::after {
	content: url(images/qrcode.gif);
	position: absolute;
	right: -28px;
	top: -135px;
	z-index: 99;
	width: 120px;
	height: 120px;
	border: 5px solid #0095ba;
	border-radius: 4px;
	-webkit-transform-origin: top right;
	transform-origin: top right;
	-webkit-transform: scale(0);
	transform: scale(0);
	opacity: 0;
	-webkit-transition: all .4s ease-in-out;
	transition: all .4s ease-in-out;
}

首先父元素添加相对定位,然后以”:after” 伪元素在<a></a>元素的内容之后插入微信二维码;transform: scale(0)opacity: 0实现二维码隐藏。

第三步

同样在style.css中添加如下代码

.weixin:hover::after {
	transform: scale(1);
	opacity: 1;
}

当鼠标经过时显示二维码。

另一种方法(推荐)

上面的代码中使用了”:after”伪类元素,是在css中引入二维码文件,其实我们也可以利用img标签将二维码图片放在html中,结构如下:

<a class="social weixin" href="javascript:">
    <img class="qrcode" src="http://你的路径/qrcode.gif" alt="微信二维码">
//此处为微信图标。
</a>

自然css样式也要做相应的改变,如下:

a.weixin {
	position: relative;
}

.weixin img.qrcode {
	position: absolute;
	z-index: 99;
	top: -135px;
	right: -28px;
	width: 7.5rem;
	max-width: none;
	height: 7.5rem;
	transform: scale(0);
	transform-origin: top right;
	opacity: 0;
	border: .1rem solid #0085ba;
	border-radius: .25rem;
	-webkit-transition: all .4s ease-in-out;
	-o-transition: all .4s ease-in-out;
	transition: all .4s ease-in-out;

}

.weixin:hover img.qrcode {
	transform: scale(1);
	opacity: 1;
}
继续阅读

mysqldump数据库备份及网站搬家

数据库备份

首先用mysqldump备份数据库到网站根目录:

mysqldump -uroot -pmypassword 168itw > /home/wwwroot/www.168itw.com/168itw.sql

root为mysql数据库用户名,mypassword为密码,168itw为数据库名,168itw.sql为备份成的文件。

备份多个数据库:

mysqldump -uroot -pmypassword --databases wp stuff > wpbak.sql

root为mysql数据库用户名,mypassword为密码,wp、stuff为数据库名,wpbak.sql为备份成的文件。

备份所有数据库:

mysqldump -uroot -pmypassword --all-databases > all-databases.sql

root为mysql数据库用户名,mypassword为密码,all-databases.sql为备份成的文件。

还原MySQL数据库的方法

1、还原单个数据库

继续阅读

Cloudflare自选IP后网站出现404 URL not found

今天给一个面向国内的网站套上cloudflare自选IP后,出现了404 URL not found的错误提示,改回源IP,错误消失网站正常。看来是cloudflare ip的问题。

修改为cloudflare百度合作IP后,问题解决。看来是cloudflare封了免费用户的部分自选IP。

附上已经被cloudflare封杀的自选IP:

电信:推荐走圣何塞,例:104.16.160.* 或者上面的百度云合作 ip。
移动:推荐走移动香港,例:172.64.32.*、141.101.115.* 或者 104.23.240.0-104.23.243.254。
联通:没发布什么好线路,可走圣何塞。例:104.16.160.* 或者 104.23.240.0-104.23.243.254。也可以试一下走亚特兰大 108.162.236.*(日前不可用。) 。

收集自网络,以上IP,大部分已经被封。

以下百度合作IP目前在正常:

162.159.208.4-162.159.208.103

162.159.209.4-162.159.209.103

162.159.210.4-162.159.210.103

162.159.211.4-162.159.211.103

另外可以试试这个用API自动检测切换cloudflare IP的程序,不过接口需要购买,也便宜。

hostmonit.com/manually-select-ip/

最后,附上可以使用的cloudflare partner cdn:

萌精灵:https://cdn.moeelf.com/ (Key已被封,无法使用)

挖站否:cdn.wzfou.com

笨牛网:https://cdn.bnxb.com/

火车采集器采集PDF并且去重方法

update: 新版火车采集,如果把文件(包括pdf,图片等)当作URL网址来采集的话,在内容采集规则中的文件下载中,勾选 探测文件并下载,貌似也能解决上述问题!

最近在使用火车采集器的时候,遇到一个类似的问题,Google搜索到csdn上的一篇文章。

以下为引用,原文链接见文末。

遇到的案例是这样的,在http://www.xxx.com/index.html 上有多个pdf的下载连接,不定时会有新的pdf增加(下载链接有变化),现在需要监控网页变化,并下载新增加的文件。

直接使用火车采集器没法完美(至少我还没试出来)完成任务。

1,使用缺省设置,起始网址是 http://www.xxx.com/index.html ,使用“自动获取地址链接”,可以得到pdf文件的链接地址。在第2步“内容采集”的步骤中,会将pdf文件当为常规的html网页进行读取,但无法下载文件。

2,将起始网址作为内容页网址,也就是多级列表为空。这种情况下可以下载文件,但带来一个问题,下载一次后,由于起始网址是固定的,以后再运行这个任务,会被当作重复网址而忽略。如果在第4步“4、其他设置”的“发布相关”中,开启“清空该任务网址库”,可以多次运行本任务了,但同时带来一个更麻烦的问题,已更新的文件也被反复下载,火车采集器中并没有记录下载文件链接地址作为去重的依据。如果下载文件的命名规则使用[原文件名],重复下载的会被覆盖,不考虑流量、时间的情况下,第二种方法已勉强可接受。但下载文件会存在同名的情况(/1/abc.pdf 和 /2/abc.pdf),所以本案例中不适用。

现在想到的解决方案如下,使用手动设置规则获取链接地址,配合http请求、响应修改插件进行处理。

继续阅读

提高百度收录量:索引页链接补全机制的一种方法

百度搜索研发部官方博客上面的一篇文章,对于解决百度收录问题,提高索引量很有帮助,转载过来!

索引页链接补全机制的一种方法

一、背景

Spider位于搜索引擎数据流的最上游,负责将互联网上的资源采集到本地,提供给后续检索使用,是搜索引擎的最主要数据来源之一。spider系 统的目标就是发现并抓取互联网中一切有价值的网页,为达到这个目标,首先就是发现有价值网页的链接,当前spider有多种链接发现机制来尽量快而全的发 现资源链接,本文主要描述其中一种针对特定索引页的链接补全机制,并给出对这种特定类型的索引页面的建议处理规范用于优化收录效果。

当前大多数互联网网站以索引页和翻页的形式来组织网站资源,当有新资源增加时,老资源往后推移到翻页系列中。

如下图所示:

继续阅读