自从百度的算法被调整了之后,对原创的文章的重视性也是越来越高了,然而一篇好的原创文章往往需要的间很长,也许冥思苦想一个小时,也写不出来一篇像样的。那么如果自己辛辛苦苦写出来的原创文章如果被别人采集了。我的站权重太低,采集我的那个站权重高,百度先收录了采集站的,那我这不是做了无用功么。所以今天我们和大家说说一些小的方法如何来防止别人采集我们网站的内容。
这个方法就是进行网址加密,我们知道,正则表达式会匹配你列表页的超链接,然后通过超链接地址来获取你文章页的内容,而一旦你把列表页的超链接进行加密,这样就从源头掐断了采集者的路。加密函数如下:
function uc_authcode($string, $operation = 'DECODE', $key = '', $expiry = 0) {
$ckey_length = 4; //note 随机密钥长度 取值 0-32;
//note 加入随机密钥,可以令密文无任何规律,即便是原文和密钥完全相同,加密结果也会每次不同,增大破解难度。
//note 取值越大,密文变动规律越大,密文变化 = 16 的 $ckey_length 次方
//note 当此值为 0 时,则不产生随机密钥
$key = md5($key);
$keya = md5(substr($key, 0, 16));
$keyb = md5(substr($key, 16, 16));
$keyc = $ckey_length ? ($operation == 'DECODE' ? substr($string, 0, $ckey_length): substr(md5(microtime()), -$ckey_length)) : '';
$cryptkey = $keya.md5($keya.$keyc);
$key_length = strlen($cryptkey);
$string = $operation == 'DECODE' ? base64_decode(substr($string, $ckey_length)) : sprintf('%010d', $expiry ? $expiry + time() : 0).substr(md5($string.$keyb), 0, 16).$string;
$string_length = strlen($string);
$result = '';
$box = range(0, 255);
$rndkey = array();
for($i = 0; $i <= 255; $i++) {
$rndkey[$i] = ord($cryptkey[$i % $key_length]);
}
for($j = $i = 0; $i < 256; $i++) {
$j = ($j + $box[$i] + $rndkey[$i]) % 256;
$tmp = $box[$i];
$box[$i] = $box[$j];
$box[$j] = $tmp;
}
for($a = $j = $i = 0; $i < $string_length; $i++) {
$a = ($a + 1) % 256;
$j = ($j + $box[$a]) % 256;
$tmp = $box[$a];
$box[$a] = $box[$j];
$box[$j] = $tmp;
$result .= chr(ord($string[$i]) ^ ($box[($box[$a] + $box[$j]) % 256]));
}
if($operation == 'DECODE') {
if((substr($result, 0, 10) == 0 || substr($result, 0, 10) - time() > 0) && substr($result, 10, 16) == substr(md5(substr($result, 26).$keyb), 0, 16)) {
return substr($result, 26);
} else {
return '';
}
} else {
return $keyc.str_replace('=', '', base64_encode($result));
}
}
此函数会随机把地址加密成无序的字符串,而且每次都是不一样的,这样就无规律可言,也就无法用正则进行匹配
用法:如果你的列表页网址是$str=”http://www.xiaohao.net/list/1.html”,那么在php文件里,对变量进行加密$url = uc_authcode($url 'DECODE', '#$123');第三个参数是加入加密串而加大破解的难度,这样,在你的模板上的网址就是加过密的了,而当你要读取数据库的时候可以用uc_authcode($url 'ENCODE', '#$123');来进行解密,这样在php文件在进行读库操作的时候,就不会是加过密的地址,如此一来,就彻底解决了原创文章被采集的问题。