python如何爬取电影并下载
admin
2023-07-18 02:22:11
0

一、概述

对于一个宅男,喜欢看电影,每次打开电影网站,各种弹出的广告,很是麻烦,还是要自己去复制下载链接到迅雷上粘贴并下载,这个过程中还有选择困难症;这一系列的动作让人甚是不爽,不如有下好的,点着看就好了;作为一个python爱好者,结合对爬虫的一点小了解,于是周末花了点时间用python写了一个爬取某电影网站上的最新电影板块;
思路:
爬虫针对某电影网站,收集电影名,下载链接,评分,等信息;当天更新的电影,特别的打印出来;同时通过评分调用迅雷下载,当然先判断下,是否已经下载过了,再决定是否下载;然后,就是可以看了~

本次版本是基于python3.x下通过,在windows上才能调用迅雷~linux平台只能获取相关信息!
python安装和相关的模块安装这里不讲述,如有不明白请留言我~
jupyter上运行如下:
python如何爬取电影并下载

二、代码

废话不多说上代码吧~

# coding:utf-8
# version 20181027 by san
import re,time,os
from urllib import request
from lxml import etree  # python xpath 单独使用导入是这样的
import platform
import ssl
ssl._create_default_https_context = ssl._create_unverified_context   # 取消全局证书

#爬虫电影之类
class getMovies:
    def __init__(self,url,Thuder):
        '''        实例初始化       '''
        self.url = url
        self.Thuder = Thuder

    def getResponse(self,url):
        url_request = request.Request(self.url)
        url_response = request.urlopen(url_request)
        return url_response   #返回这个对象

    def newMovie(self):
        ''' 获取最新电影 下载地址与url '''
        http_response = self.getResponse(webUrl) #拿到http请求后的上下文对象(HTTPResponse object)
        data = http_response.read().decode('gbk')
        #print(data)  #获取网页内容
        html = etree.HTML(data)
        newMovies = dict()
        lists = html.xpath('/html/body/div[1]/div/div[3]/div[2]/div[2]/div[1]/div/div[2]/div[2]/ul/table//a')
        for k in lists:
            if "app.html" in k.items()[0][1] or "最新电影下载" in k.text:
                continue
            else:
                movieUrl = webUrl + k.items()[0][1]
                movieName = k.text.split('《')[1].split("》")[0]
                newMovies[k.text.split('《')[1].split("》")[0]] = movieUrl = webUrl + k.items()[0][1]
        return newMovies

  def Movieurl(self,url):
        ''' 获取评分和更新时间 '''
        url_request = request.Request(url)
        movie_http_response = request.urlopen(url_request)
        data = movie_http_response.read().decode('gbk')
        if len(re.findall(r'豆瓣评分.+?.+users',data)):  # 获取评分;没有评分的返回null
            pingf = re.findall(r'豆瓣评分.+?.+users',data)[0].split('/')[0].replace("\u3000",":")

        else:
            pingf = "豆瓣评分:null"
        desc = re.findall(r'简\s+介.*',data)[0].replace("\u3000","").replace('',"").split("src")[0].replace('&ldquo',"").replace('&rdquo',"").replace('",v,"\n")
            else:
                print("========================================")
                print(k,"-->",v,"\n")

if __name__ == '__main__':
    # 以下依据您个人电影迅雷的相关信息填写即可
    save_path="O:\迅雷下载"     # 电影下载保存位置 (需要填写)
    Thuder = "O:\Program\Thunder.exe"   #Thuder: 迅雷Thuder.exe路径 (需要填写)
    webUrl = 'http://www.dytt8.net'     # 电影网站
    test = getMovies(webUrl,Thuder)   # 实例化
    test.NewMoives()
    Movies = test.Main()

    for k,v in Movies.items():
        movies_name = v[0][0].split('/')[3]
        socre = v[0][2].split(":")[1]
        check_down_status = test.check_end(movies_name,save_path)
#       print(check_down_status)
        if  check_down_status:
            print("电影: %s 已经下载" %movies_name)
            continue
        elif  socre == 'null':
            continue
        elif float(socre) > 7.0:
            print(movies_name,socre)
            test.DownMovies(k,v[0][0])
            time.sleep(10)

注意:以上代码是针对windows平台下,迅雷版本为非极速版本,本次使用的是9.14 如图:
python如何爬取电影并下载
另外需要勾选以下配置项,否则程序调用迅雷下载时会有提示框:
python如何爬取电影并下载

程序运行效果如图:
python如何爬取电影并下载
python如何爬取电影并下载

再看下O盘 下载的目录:
python如何爬取电影并下载

至此自动获取最新电影并下载指定评分电影完成~ 再也不用担心选择困难了,下好看就行了~

相关内容

热门资讯

原创 华... 华为在影像方面,发展越来越成熟,而且推出红枫原色镜头、2亿像素、AI智拍、达芬奇人像引擎、实况功能等...
矛头指向万斯,以色列谍报界:都... 【文/观察者网 阮佳琪】美国急于从对伊战争中抽身,被特朗普甩脸子的以色列开始各种找补。据《耶路撒冷邮...
一项技术获国家发明专利授权 来源:青海日报 本报格尔木讯 (记者 冉志敏 通讯员 贺昕) 6月5日,从五矿盐湖有限公司传来好消息...
魔都看展丨用无边创意“加载”现... UFO Terminal发起的“加载...计划”步入第三年,油罐艺术公园1号罐正在举办展览“加载…权...
俄总统顾问:美国正试图退出乌克... 据凤凰卫视报道,俄罗斯总统新闻秘书佩斯科夫6月6日表示,就乌克兰问题而言,达成特别军事行动既定目标、...
白龙马申请客户端域名切换方法专... 国家知识产权局信息显示,北京白龙马云行科技有限公司申请一项名为“一种客户端域名切换方法、装置、电子设...
魅族22全面断货,国产智能手机... 作为国产智能手机鼻祖,魅族曾经是多少人心目中的“白月光”?可今年魅族却迎来落幕时刻。魅族今年2月正式...
原创 这... 最近看手机价格,我最大的感受就是:现在买手机真的不能只看谁刚发布。很多新机刚上市时声量很大,价格也很...
经批准,这位考生高考每科可增加... 6月6日下午,极目新闻记者来到巴东县第二高级中学高考考点。因出生时缺氧导致脑瘫的考生小雅(化名),正...
微软官宣智能体硬件:AI时代的... 2026台北国际电脑展(Computex)上,微软接连官宣超20款重磅更新,涉及9款自研模型、与英伟...