【Python】抓取淘宝数据库月报,发送邮件,本地存档,保存元信息
admin
2023-07-18 15:42:32
0

用途

  • 定期抓取淘宝数据库月报
  • 发送邮件,保存到本地,最好是git中
  • 发送元数据到mysql中,后期可以做成接口集成到运维平台中,便于查询

使用方式

# 下载(必须)
cd ~ && git clone https://github.com/naughtyGitCat/spider_taobao_mysql.git

# 修改配置(必须)
vim config.py

# 安装crontab(可选)
"0 10 8 * * source ~/.bashrc && python3 ~/spider_taobao_mysql/main.py" 

# 安装依赖
pip3 install logbook
pip3 install html2text
pip3 install pymysql
pip3 install requests_html

# 创建元信息库表(可选)
mysql -d mysql -u root -p < taobao_monthly_report.sql 

# 执行程序
python3 main.py

完成情况:

  • 定期抓取用crontab来做,不放到本脚本中
  • 发送邮件,保存到本地(html)皆完成
  • 保存元数据

问题

  • 为什么邮件正文只有前言部分?因为邮件有反垃圾措施,全文容易被屏蔽
  • 为什么收件人只有一个?因为邮件有反垃圾措施,多人容易被屏蔽,可以发送到同一个邮箱中,然后自动转发
  • 可以也可以保存md格式到本地,但是我的md编辑器好像加载不了图片,就是用了html的格式本地保存
  • 本地保存以及发送html时都损失了样式,不太美观,但我在邮件正文中增加了原文链接。
  • 文章中的图片没有本地化,理论上是有图片失效的问题的。但考虑到各位都有阅读后及时总结整理的好习惯,也就无所谓了。

注意

  • 一个月运行一次就够了,可以放到crontab中每月执行一次,自动抓取上个月的文章内容
  • 阿里的页面是到下个月后一次性放出上个月所有的文章,总数目前看基本是10篇,
  • 如果发现其一次放出了>10篇的文章,请联系我进行更改

依赖包

  • logbook 日志
  • html2text 格式转换为md
  • pymysql 上传元数据
  • requests_html 抓取网页的正文

TODO:

  • 缓存本地图片
  • 把insert into 改成replace into

【Python】抓取淘宝数据库月报,发送邮件,本地存档,保存元信息

相关内容

热门资讯

马斯克,又一次创造了历史 太震撼了!马斯克,又一次创造了历史。北京时间6月12日晚,SpaceX正式登陆纳斯达克。没有红毯,没...
上海科技影都持续发力 多项影视... 上证报中国证券网讯(记者 杨翔菲)6月13日,为期两天的2026上海科技影都创制生态大会暨AltNe...
从App到Agent:Harm... 6月12日,华为开发者大会2026(HDC 2026)盛大开幕,HarmonyOS 7面向开发者正式...
高管花式退场,阿里AI不需要“... 一场漫长且诡异的高管离职传闻,正将阿里AI业务再度推至舆论中心。 6月13日据IT之家报道,阿里合伙...
苹果提交无人机集群网络优化专利... IT之家 6 月 14 日消息,苹果公司或许已经搁置了打造苹果汽车的宏大构想,但这家总部位于库比蒂诺...
美战机在华盛顿州坠毁引发森林火... 【环球网报道】据美国福克斯新闻网、《西雅图时报》等媒体报道,一架军用飞机当地时间13日在美国华盛顿州...
蒋万安呼吁废台监察机构被批应多... 海峡导报综合报道 民进党当局公布第7届“监察委员”提名名单,台北市长蒋万安表态主张废除台监察机构,建...
富二代,捐了“半个故宫” 1941年6月的一个清晨,收藏家张伯驹走出位于上海的寓所,坐上汽车前往外滩。不久后,他就消失在人们的...
谷爱凌从斯坦福毕业了!穿学士服... 直播吧06月14日讯 今日谷爱凌在社媒发布动态,晒出了他在斯坦福毕业季拍摄的照片。谷爱凌2022年入...
英格兰队训练物资被盗疑为内鬼作... 正在备战世界杯的英格兰队遭遇失窃事件,引发关注。消息人士证实,此前运送装备至堪萨斯城斯沃普足球村基地...