一个完整的爬虫入门程序
admin
2023-07-20 08:02:26
0

直接先说准备工作:
(1)清楚爬虫工作的流程:

向页面发出请求---------获取请求文件---------处理请求文件--------抽取自己想要的内容

(2)要用到的函数与库
主要是requests库: 负责去向页面发出请求
beautiSoup4库:对抓取的页面文档进行解析
re库:匹配所需字段

可能存在的问题:
(1)编码的问题:注意页面中,以及读写的编码
(2)循环读取页面时注意页面访问地址的变化情况

完整代码:

import requests
from urllib3 import request
import re

class Spider:
    def __init__(self):
        # 初始化起始页位置
        self.page = 1
        #爬取开关,如果为True继续爬取
        self.switch = True

    def loadPage(self):
        """
            作用:下载页面
        """
        print("正在下载数据....")
                #这个页面的下载规则
        url = "http://www.neihan8.com/article/list_5_" + str(self.page) + ".html"
        headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
        response = requests.get(url, headers = headers)
                #处理编码
        response.encoding=response.apparent_encoding

        #获取每页的HTML源码字符串
        html = response.text

        #创建正则表达式规则对象,匹配每页里的段子内容,re.S 表示匹配全部字符串内容
        pattern = re.compile('(.*?)
', re.S) #将正则匹配对象应用到html源码字符串里,返回这个页面里的所有段子的列表 content_list = pattern.findall(html) #调用dealPage() 处理段子里的杂七杂八 self.dealPage(content_list) def dealPage(self, content_list): """ 处理每页的段子 content_list : 每页的段子列表集合 """ for item in content_list: # 将集合里的每个段子按个处理,替换掉无用数据 item = item.replace("

","").replace("

", "").replace("
", "") #处理完后调用writePage() 将每个段子写入文件内 self.writePage(item) def writePage(self, item): """ 把每条段子逐个写入文件里 item: 处理后的每条段子 """ #写入文件内 print("正在写入数据....") #编码的处理 with open(r"duanzi1.txt", "a",encoding="utf-8") as f: f.write(item) def startWork(self): """ 控制爬虫运行 """ #循环执行,直到 self.switch == False while self.switch: # 用户确定爬取的次数 self.loadPage() command =input("如果继续爬取,请按回车(退出输入quit)") if command == "quit": # 如果停止爬取,则输入 quit self.switch = False #每次循环,page页码自增 self.page += 1 print("谢谢使用!") if __name__ == "__main__": duanziSpider = Spider() duanziSpider.startWork()

相关内容

热门资讯

“618”看大促丨“以旧换新+... 央广网北京6月18日消息(记者焦浩)据中央广播电视总台经济之声《天下财经》报道,今年的“618”大促...
怎么挑选适配沈阳城乡场景的太阳... 沈阳户外照明行业发展背景 随着沈阳城镇化建设与乡村振兴战略的持续推进,城乡道路、市政公园、文旅景区、...
83岁拜登舞台再犯迷糊,神情茫... 6 月 18 日消息,美国芝加哥奥巴马总统中心开幕仪式现场曝出极具争议的一幕,各路前总统齐聚的隆重场...
中国民企5年百亿救活英国百年钢... 现实版“农夫与蛇”的故事正在上演。六年前,中国民营企业敬业钢铁掏钱救活了一家英国百年钢企。五年后,英...
美国4位前第一夫人罕见同框,为... 当地时间6月18日,美国四位前总统和他们各自的夫人,相聚在了芝加哥,参加“贝拉克·奥巴马图书馆”的盛...
科学与健康丨我国科研团队成功破... 午间的强光,是农作物生长的“双刃剑”,看似充沛的光照能滋养作物,却会引发“光合午休”现象,造成产量大...
特朗普吐露的真相,比战争结局更... 中东大战,似乎戛然而止了。我相信,很多人可能还不相信自己眼睛,怎么打得这么虎头蛇尾?为什么美国突然又...
算力PCB材料迭代提速 对位芳... 深圳商报·读创客户端 记者陈燕青 近期,在电子新材料行业调研会上,多位覆铜板、PCB行业专家表示,A...
油烟机出口为什么有抖动噪音 油烟机出气口有抖动噪音的原因有几种:1、油烟机没有固定牢固,启动后来回震动导致有噪音。2、出气口被堵...
燃气灶停气后打不着火是什么原因 问题:燃气灶停气后打不着火是什么原因回答:原因是假如你的燃气灶手压住开关燃烧几秒钟后,还是要熄灭,那...