PHP CURL获取cookies模拟登录的方法
admin
2023-06-24 05:01:41
0

要提取google搜索的部分数据,发现google对于软件抓取它的数据屏蔽的厉害,以前伪造下 USER-AGENT 就可以抓数据,但是现在却不行了。利用抓包数据发现,Google 判断了 cookies,当你没有cookies的时候,直接返回 302 跳转,而且是连续几十个302跳转,根本抓不了数据。

因此,在发送搜索命令时,需要先提取 cookies 并保存,然后利用保存下来的这个cookies再次发送搜索命令即可正常抓数据了。这其实和论坛的模拟登录一个道理,先POST登录,获取cookies并保存,然后利用这个cookies访问就可以了。

PHP 代码如下:


$login_url = 'XXX';  

   

 $post_fields['email'] = 'XXXX';  

 $post_fields['password'] = 'XXXX';  

 $post_fields['origURL'] = 'XXX';  

 $post_fields['domain'] = 'xxx.com';  

 //cookie文件存放在网站根目录的temp文件夹下  

 $cookie_file = tempnam('./temp','cookie');  

   

 $ch = curl_init($login_url);  

 curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.5) Gecko/20091102 Firefox/3.5.5');  

 curl_setopt($ch, CURLOPT_HEADER, 0);  

 curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);  

 curl_setopt($ch, CURLOPT_MAXREDIRS, 1);  

 curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);  

 curl_setopt($ch, CURLOPT_AUTOREFERER, 1);  

 curl_setopt($ch, CURLOPT_POST, 1);  

 curl_setopt($ch, CURLOPT_POSTFIELDS, $post_fields);  

 curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie_file);  

 curl_exec($ch);  

 curl_close($ch);  

   

 //带上cookie文件,访问需要访问的页面  

 $send_url='xxx.com';  

 $ch = curl_init($send_url);  

 curl_setopt($ch, CURLOPT_HEADER, 0);  

 curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);  

 curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie_file);  

 $contents = curl_exec($ch);  

 curl_close($ch);  

   

 //清理cookie文件  

unlink($cookie_file);  

   

 //输出网页内容  

print_r($contents);


在temp文件夹下保存一个cookie前缀的临时文件,例如:coo3A98.tmp文件

打开这个文件得到如下代码:

PHP CURL获取cookies模拟登录的方法


要使用php来格式化该文件,使用以下代码就能实现

 $cookie_folder = dirname(__FILE__)."/temp";  

 $lines = file($cookie_folder.'/coo3A98.tmp');  

   

 $trows = '';  

   

 foreach($lines as $line) {  

     if($line[0] != '#' && substr_count($line, "\t") == 6) {  

         $tokens = explode("\t", $line);  

         $tokens = array_map('trim', $tokens);  

         $tokens[4] = date('Y-m-d h:i:s', $tokens[4]);  

         $trows .= '' . implode('', $tokens) . '' . PHP_EOL;  

     }  

 }  

 echo '

'.PHP_EOL.''.PHP_EOL.$trows.''.PHP_EOL.'
';  

 ?>


运行之后就如下图所示,已经被写入到table当中

PHP CURL获取cookies模拟登录的方法

大功告成,如果只读取其中字段可自行修改即可。

相关内容

热门资讯

神二十一航天员张陆出舱,从太空... 据凤凰卫视报道,神舟二十一号航天员乘组5月29日乘坐神舟二十二號载人飞船返回地球。北京时间20时11...
5月30日、31日晚8点来京东... 又好又便宜的京东618将于5月30日晚8点正式开启,全品类现货开卖。5月30日、31日每晚8点,消费...
27国代表齐聚厦门!金砖国家新... 来源:中国制造 5月27日,由工业和信息化部、福建省人民政府共同主办2026金砖国家新工业革命伙伴...
奋进“十五五” 科技谱新篇 —... 2026年5月28日上午,由抚顺市科学技术协会、新抚区科技局、新抚区委宣传部、新抚区科学技术协会联合...
国家最新的“人口小普查”,揭开... 5月22日,国家统计局公布了2025年全国1%人口抽样调查主要数据。这是国家统计局于2025年开展的...
漯河创新“曲艺+短剧+漫画”模... 您的浏览器不支持 video 标签。防谣治谣,重在源头,贵在日常。漯河市委网信办打破传统说教,推出《...
凤凰晚报丨哈马斯加沙领导人,上... 今日人物【穆罕默德·奥达,“上任即被斩首”】奥达一直是哈马斯的活跃领导人,曾长期担任哈马斯核心战斗部...
国家知识产权局前局长田力普一行... 本报讯 (记者吴奕萱 见习记者王楠)5月29日,宁波均普智能制造股份有限公司(以下简称“均普智能”)...
向山、向海、向荒野|2026第... 2026第二届搜狐极限探索者大会,即将于6 月 6 日在北京盛大启幕。 这是一场属于探索者的年度盛宴...
巴斯勒相机维修BIP2-D13... 导语:在工业自动化设备运维中,工业相机作为视觉检测的核心部件,其稳定性直接影响产线效率。以巴斯勒BI...