爬虫简单总结!
admin
2023-07-07 18:23:14
0

执行Python程序

执行入门编程代码“Hello,World!”,用Python输出“Hello,World!”

#!/usr/bin/env/python
prent ("Hello,World!")
    #!/usr/bin/python             是告诉操作系统执行这个脚本的时候,调用 /usr/bin 下的 python 解释器。这种用法是为了防止操作系统用户没有将 python 装在默认的 /usr/bin 路径里。当系统看到这一行的时候,首先会到 env 设置里查找 python 的安装路径,再调用对应路径下的解释器程序完成操作。

常用的第三方库

requests:是一个常用的用于http请求的模块,它使用python语言编写,
可以方便的对网页进行爬取,是学习python爬虫的较好的http
请求模块。

BeautifulSoup:是编写 python 爬虫常用库之一,主要用来解析 html
标签

import josn: 是一种轻量级的数据交换格式,易于人阅读和编写。

xwlt: 这是一个开发人员用来生成与微软Excel版本95到2003兼容的电子表格
文件的库。

mongo: 非关系型数据库
链接数据库:
./mongod *&
./mongo
pymongo

import os: OS: 模块简单的来说它是一个Python的系统编程的操作模块,
可以处理文件和目录这些我们日常手动需要做的操作。

import sys: sys模块包含了与Python解释器和它的环境有关的函数。

from pc1 import*: 导入模块,每次使用模块中的函数,直接使用函数就
可以了。注:因为已经知道该函数是那个模块中的了。

爬虫!

    1. 访问网站,拿到html网页 
    2. 提取html中我们 想要的内容 
    3. 把我们 爬到的内容 存到 数据库 

下面要从网页上爬下照片到我们的数据库中!

#!/usr/bin/env python
#encoding=utf-8  

用来说明你的Python源程序文件用使用的编码。缺省情况下你的程序需要使用ascii码来写,但如果在其中写中文的话,python解释器一般会报错,但如果加上你所用的文件编码,python就会自动处理不再报错。

import requests
from bs4 import BeautifulSoup
import os
url = 'http://www.stallman.org/photos/rms-working/pages/{}.html'

导入我们需要的模块及网站!

def spider(url):
list_n = range(1,149)
base_url = 'http://www.stallman.org/photos/rms-working/'

标签为页面上的所有链接规定默认地址或默认目标。

通常情况下,浏览器会从当前文档的 URL 中提取相应的元素来填写相对 URL 中的空白。

使用标签可以改变这一点。浏览器随后将不再使用当前文档的 URL,而使用指定的基本 URL 来解析所有的相对 URL。这其中包括

标签中的 URL。

for i in list_n:
          print i  
          url_req = url.format(str(i))
          print url

建立一个循环,将我们要访问的网站页数作为变量(i),带入到我们的网站中

    res = requests.get(url_req,timeout=5)
    html = res.content
    soup = BeautifulSoup(html, 'html.parser')
    img = soup.find('img')
    src =  img.get('src')

访问网站, timeout=5 ,5S后没有反应是终止;
将网站内容带入到html中;
将html中的内容用bs4中的BeautifulSoupbianyi编译成超链接文本,方便我们查找需要的内容。(也可以不进行编译,不过接下来我们只能用正则表达式的方式查找。及其麻烦)并且带入到soup中;
在我们刚才得到的soup中查找图片链接(imp);
将找到的图片写入src中。

   url_image = base_url + src.split('../')[1]
   os.system('wget %s' % url_image)

将我们得到的src和之前输入的网址连接,就得到我们要爬的内容了(../ :返回上级,也就是url中../rms-working/一级);
然后我们就可以用os命令下载了!

奈斯!!!!!!!!

相关内容

热门资讯

我国科学家为细胞信号“导航”开... 新华社济南5月31日电(记者张力元)人体细胞犹如一座精密的通信城市,每天都有大量“指令”穿梭传递,调...
极端大风突袭哈尔滨!过山车停摆... 极目新闻记者 詹钘5月31日,受强对流天气影响,哈尔滨国际会展中心体育场相关设施受到损坏,原计划当晚...
三原电缆取得电缆接头连接用防护... 国家知识产权局信息显示,上海三原电缆附件有限公司取得一项名为“一种电缆接头连接用防护结构”的专利,授...
原创 识... 还是那句话,机圈苦大屏久已…… 虽然大屏有大屏的美,但是小屏也有小屏的俏。在大屏旗舰占据主流的手机市...
玄戒技术取得分频电路专利,实现... 国家知识产权局信息显示,北京玄戒技术有限公司取得一项名为“分频电路、分频器、射频芯片和电子设备”的专...
为什么今年香会基调明显变了 5月29日—31日在新加坡举行的第23届香格里拉对话会(简称“香会”),见证着元首引领下大国关系继续...
成本几毛钱、假驱蚊液香精兑水,... 入夏升温,蚊虫进入活跃期,驱蚊防护成为民生刚需,《财经调查》持续接到消费者投诉,他们买到的多款网红驱...
越来越多80后90后,正在丧失... 六一儿童节到来之际,朋友圈里开始出现一种熟悉的热闹。有人晒出零食礼包,有人半开玩笑地向伴侣讨礼物,还...
洋保电子取得用于低温环境的电气... 国家知识产权局信息显示,洋保电子(太仓)有限公司取得一项名为“一种用于低温环境的电气柜”的专利,授权...
中日韩飞手争霸宁波!2026无... 潮新闻客户端 记者 陈冲 通讯员 朱凝 5月31日,2026小遛·无人机竞速世界杯(中国·宁波鄞州站...