2021 年 5 月 – 第 2 页

Cloudflare自选IP后网站出现404 URL not found

2021年5月13日2021年5月13日 168IT网评论

今天给一个面向国内的网站套上cloudflare自选IP后，出现了404 URL not found的错误提示，改回源IP，错误消失网站正常。看来是cloudflare ip的问题。

修改为cloudflare百度合作IP后，问题解决。看来是cloudflare封了免费用户的部分自选IP。

附上已经被cloudflare封杀的自选IP：

电信：推荐走圣何塞，例：104.16.160.* 或者上面的百度云合作 ip。
移动：推荐走移动香港，例：172.64.32.*、141.101.115.* 或者 104.23.240.0-104.23.243.254。
联通：没发布什么好线路，可走圣何塞。例：104.16.160.* 或者 104.23.240.0-104.23.243.254。也可以试一下走亚特兰大 108.162.236.*（日前不可用。）。

收集自网络，以上IP，大部分已经被封。

以下百度合作IP目前在正常：

162.159.208.4-162.159.208.103

162.159.209.4-162.159.209.103

162.159.210.4-162.159.210.103

162.159.211.4-162.159.211.103

另外可以试试这个用API自动检测切换cloudflare IP的程序，不过接口需要购买，也便宜。

hostmonit.com/manually-select-ip/

最后，附上可以使用的cloudflare partner cdn：

萌精灵：https://cdn.moeelf.com/ （Key已被封，无法使用）

挖站否：cdn.wzfou.com

笨牛网：https://cdn.bnxb.com/

英文网站流量统计除了Google Analytics还有哪些选择

2021年5月12日2024年8月23日 168IT网评论

国内网站统计，大家很熟悉的有百度统计、cnzz（被友盟收购）、51la和腾讯分析。但是英文网站，除了大家熟悉的Google Analytics，还有哪些选择呢？

Google Analytics功能很强大，配合Tag manager，很多有意思的用法。但是如果“很多网站”，避免关联，就不太适合用Google Analytics了（你懂的）。

统计了，目前常用的英文网站流量统计追踪工具，除了Google Analytics，还主要有以下几种。

Yandex Metrica
俄罗斯搜索引擎Yandex的统计工具，最关键的是Yandex Metrica能够统计到Google搜索关键词。
StatCounter
StatCounter 统计是一较大的国外免费在线流量统计服务商，搜索功能可以监控不同的搜索引擎，浏览器和操作系统的市场份额。StatCounter全球数据统计工具的重心不同于Compete， Alexa， Google Trends，或 Quantcast等所提供的服务，因为它不是通过专门的网站来分流(break out)数据，而只关注这些高层次的统计资料。最大的亮点在于StatCounter的数据可追溯到去年年中的时候，并允许以大陆和国家为类别将数据重新排序。这对于网站的分析、比较、找出用户的搜索习惯作出较好的判断依据。
Histats
简单强大统计图表样式可供选择，提供多种方式的统计显示图，包括当日统计、最后30天统计和总统计等，统计数据也涵盖页面浏览量、点击量、反向链接。
W3counter
W3counter是一个强大免费的网站统计和分析利器，提供了一常见的统计分析功能：包括网站总访问数和页面访问数、 Feed 状态分析、访问者地区，访问者用的系统、浏览器、屏幕分辨率。可以替代Google analytics 的界面太复杂了。
Clicky
Clicky是实时统计系统中比较出名的一个，当你在查看统计数据的时候，后台会每分钟刷新一次。
Matomo(原Piwik)
大部分网站需要用到统计肯定会直接使用大众化免费开源的第三方网站统计工具，也没有必要自建统计工具。但是，如果我们考虑到网站用户信息和访客信息需要自己控制，不至于被泄露给第三方大数据中，还是需要搭建自己的统计工具的。在以前我们可能有听说过piwik工具，如今已经更名为Matomo。
Umami
也是自建的统计工具，功能上没有Matomo强大，比较简洁。

WordPress自动使用post id作为文章别名（slug）

2021年5月5日2021年5月5日 168IT网评论

代码如下，添加到主题的function.php文件中，注意，添加后文章原来的url结构及别名不会更改，新添加文章将自动使用post id作为别名。

/**
 * 新文章自动使用ID作为别名
 * 作用：即使你设置固定连接结构为 %postname% ，仍旧自动生成 ID 结构的链接
 */
add_action( 'save_post', 'using_id_as_slug', 10, 2 );
function using_id_as_slug($post_id, $post){
	global $post_type;
	if($post_type=='post'){ //只对文章生效
		// 如果是文章的版本，不生效
		if (wp_is_post_revision($post_id))
			return false;
		// 取消挂载该函数，防止无限循环
		remove_action('save_post', 'using_id_as_slug' );
		// 使用文章ID作为文章的别名
		wp_update_post(array('ID' => $post_id, 'post_name' => $post_id ));
		// 重新挂载该函数
		add_action('save_post', 'using_id_as_slug' );
	}
}

火车采集器采集PDF并且去重方法

2021年5月3日2021年5月3日 168IT网评论

update: 新版火车采集，如果把文件（包括pdf，图片等）当作URL网址来采集的话，在内容采集规则中的文件下载中，勾选 探测文件并下载，貌似也能解决上述问题！

最近在使用火车采集器的时候，遇到一个类似的问题，Google搜索到csdn上的一篇文章。

以下为引用，原文链接见文末。

遇到的案例是这样的，在http://www.xxx.com/index.html 上有多个pdf的下载连接，不定时会有新的pdf增加（下载链接有变化），现在需要监控网页变化，并下载新增加的文件。

直接使用火车采集器没法完美（至少我还没试出来）完成任务。

1，使用缺省设置，起始网址是 http://www.xxx.com/index.html ，使用“自动获取地址链接”，可以得到pdf文件的链接地址。在第2步“内容采集”的步骤中，会将pdf文件当为常规的html网页进行读取，但无法下载文件。

2，将起始网址作为内容页网址，也就是多级列表为空。这种情况下可以下载文件，但带来一个问题，下载一次后，由于起始网址是固定的，以后再运行这个任务，会被当作重复网址而忽略。如果在第4步“4、其他设置”的“发布相关”中，开启“清空该任务网址库”，可以多次运行本任务了，但同时带来一个更麻烦的问题，已更新的文件也被反复下载，火车采集器中并没有记录下载文件链接地址作为去重的依据。如果下载文件的命名规则使用[原文件名]，重复下载的会被覆盖，不考虑流量、时间的情况下，第二种方法已勉强可接受。但下载文件会存在同名的情况（/1/abc.pdf 和 /2/abc.pdf)，所以本案例中不适用。

现在想到的解决方案如下，使用手动设置规则获取链接地址，配合http请求、响应修改插件进行处理。

继续阅读