Scrapy项目实战
admin
2023-07-12 22:44:33
0

抓取豆瓣电影top250数据,并将数据保存为csv,json格式存储到MongoDB数据库中,目标URL为https://movie.douban.com/top250

 

一、创建项目

    进入自定义的项目目录中,运行scrapy startproject douban 

    douban为项目名称,将会创建一个douban文件夹,包含以下文件。

    分别是

  • scrapy.cfg: 项目的配置文件。

  • douban/: 项目的Python模块,将会从这里引用代码。

  • douban/items.py: 项目的目标文件。

  • douban/pipelines.py: 项目的管道文件。

  • douban/settings.py: 项目的设置文件。

  • douban/spiders/: 存储爬虫代码目录。

    打开豆瓣项目,进入到spiders文件夹下,运行scrapy genspider douban_spider movie.douban.com,就会在spiders文件夹下生成douban_spider.py

    Scrapy项目实战

二、明确目标

    Scrapy项目实战

三、spider文件的编写

    Scrapy项目实战

    运行豆瓣项目:scrapy crawl douban_spider 

    运行过程中报错 : no module named ‘_sqlite3’

    Scrapy项目实战    

    安装好sqlite3后,重新编译安装python3

    Scrapy项目实战

    make && make install 重新编译python3完成。

    进入豆瓣项目,重新运行scrapy crawl douban_spider,有如下报错:

    Scrapy项目实战

    这种报错是由于USER_AGENT不是规范的格式引起的,修改成规范的即可。

    Scrapy项目实战

    在pycharm输出所需内容,先在douban文件夹下创建一个main.py,如图:

    Scrapy项目实战

    编写解析文件,主要使用xpath。在Chrome浏览器安装并启用xpath helper,方便解析。在Chrome浏览器使用shift+Ctrl+X启用xpath插件。

    Scrapy项目实战

    Scrapy项目实战

    Scrapy项目实战

四、数据的存储

    导出数据:scrapy crawl douban_spider -o test.json  或者 scrapy crawl douban_spider -o test.csv 数据以Unicode格式保存。将它导出到Windows下:sz test.csv     打开是乱码,右键该文件,选择edit with notepad++打开,选择编码,选择“使用UTF-8-BOM编码”保存。用Excel表格打开可正常浏览。

    如何将数据保存到MongoDB中?

    在setting.py中定义对应IP地址、端口号、数据库名称、数据表名称。

    Scrapy项目实战

    Scrapy项目实战

    在编写pipspiders.py,检查有没有安装pymongo。安装pip3 install pymongo。

    Scrapy项目实战

    Scrapy项目实战

    通过数据库进行连接

    Scrapy项目实战

    Scrapy项目实战

    Scrapy项目实战

    Scrapy项目实战

    


    

相关内容

热门资讯

问题居然在实体卡槽上!美版iP... 6月2日消息,日前,又有博主提前把还没发布的iPhone 18 Pro电池参数给曝光了出来,根据爆料...
2026年618手机购机攻略:... 每年618都是手机换新的最佳窗口期,2026年大促叠加数码国补、平台满减、品牌降价三重福利,新机老机...
8.99万打穿底价!史无前例的... 科技的浪漫,不是将人类送入遥不可及的星辰,而是把曾经高不可攀的科幻,变成柴米油盐里的“论斤卖”。 如...
苹果首款折叠屏iPhone U... PChome 6月2日消息,据知名数码博主@i冰宇宙最新曝光的机模谍照,苹果首款折叠屏手机(内部命名...
特朗普:美伊暂停谈判?假新闻! 当地时间6月2日,美国总统特朗普否认伊朗已停止与调解方沟通,称美国与伊朗之间的对话一直在持续进行。特...
白宫记协晚宴改期至7月,特朗普... 当地时间6月2日,美国总统特朗普表示,此前因突发暴力事件而中断的白宫记协晚宴已确定改期至7月24日举...
特朗普,开掉“不听话的情报头子... 苦撑15个月后,美国国家情报总监加巴德即将离开白宫。她对辞职的解释是:丈夫近期确诊罕见骨癌,自己希望...
面粉染头模仿黄仁勋,农村青年走... “先赔偿5000元肖像侵权使用费,再删除所有视频,要么就起诉你。”这是黄仁勋的模仿者杨洋最近频繁收到...
驻马店非遗“大集”开张 把网络... 顶端新闻记者 王丹/文 李思翰 胡楚昊/图红纸剪出“抵制网络谣言”,糖画写下“不信谣不传谣”……5月...
A股三大指数集体收涨 贵金属涨...   A股三大指数集体收涨 贵金属涨幅居前  【A股三大指数集体收涨 贵金属涨幅居前】6月2日,A股三...