古诗文网站的网络爬虫编写方式,通过网络爬虫抓去内容
admin
2023-07-23 05:22:15
0

1. 以下就是古诗文网站的爬虫代码,请看:

# encoding:utf-8
import requests
import re
import json
 
 
def parse_page(url):
    # 1.请求网站
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36"
    }
    response = requests.get(url, headers=headers)
    text = response.text
    # 2.解析网站
    titles = re.findall(r'.*?(.*?)', text, re.DOTALL)
    # print json.dumps(titles, encoding="utf-8", ensure_ascii=False)
    times = re.findall(r'.*?(.*?)', text, re.DOTALL)
    # print json.dumps(times, encoding="utf-8", ensure_ascii=False)
    authors = re.findall(r'.*?(.*?)', text, re.DOTALL)
    poems_ret = re.findall(r'(.*?)
', text, re.DOTALL)     poems = []     for poem in poems_ret:         temp = re.sub("<.*?>", "", poem)         poems.append(temp.strip())     # for index, value in enumerate(titles):     #     print titles[index]     #     print times[index]     #     print authors[index]     #     print poems[index]     #     print "*"*50     # zip函数自动实现上述组合     results = []     for value in zip(titles, times, authors, poems):         title, time, author, poem = value         result = {             "标题": title,             "朝代": time,             "作者": author,             "原文": poem         }         print result["标题"]         results.append(result)     # print results     def main():     url_base = "https://www.xzslx.net/gushi/"     for i in range(1, 11):         url = url_base.format(i)         print " "*20+"优美古诗文"+" "*20         print "*"*50         parse_page(url)         print "*"*50     if __name__ == '__main__':     main()


2. 输出来的结果是:

C:\DDD\python22\python.exe C:/PyCharm/dytt_spider/poems.py
                    古诗文                    
**************************************************
关山月
明月出天山,苍茫云海间。
长风几×××,吹度玉门关。 
汉下白登道,胡窥青海湾。
[2] 由来征战地,不见有人还。
戍客望边邑,思归多苦颜。 
高楼当此夜,叹息未应闲。
**************************************************
                    古诗文                    
**************************************************
陇西行四首·其二
誓扫匈奴不顾身,五千貂锦丧胡尘。
可怜无定河边骨,犹是春闺梦里人!
**************************************************
                    古诗文                    
**************************************************
嫦娥(嫦娥应悔偷灵药)
云母屏风烛影深, 长河渐落晓星沉。 嫦娥应悔偷灵药, 碧海青天夜夜心。
**************************************************

 

Process finished with exit code 0




相关内容

热门资讯

扛着一二百斤的货物走过12年 ... 扛着一二百斤的货物走过12年 她将生活“挑在了肩上”无人机送货效率更高,景区工作人员却解释:这是挑山...
持续更新丨各省份高考分数线陆续... 澎湃新闻记者 岳怀让广东上海6月23日,记者从上海市教育考试院获悉,上海市2026年普通高校招生本科...
第四届链博会在京举办 河南“链... 第四届中国国际供应链促进博览会现场,国内外的参展嘉宾纷纷在中豫航空集团展台前驻足。 姚自力 摄6月2...
牧原股东会释放关键信号:成本仍... 【大河财立方 记者 徐兵】6月23日,牧原股份召开2026年第二次临时股东会。董事长曹治年、总裁兼首...
郑州入选汽车流通消费改革试点,... 【大河财立方 记者 张克瑶】 6月23日,汽车消费迎来两大重磅支持:商务部等9部门发布关于培育壮大汽...
河南发文!3年时间基本消除82... 【大河财立方消息】 6月23日消息,河南省政府办公厅近日印发《河南省普通干线公路穿城路段改建行动方案...
假大师虚构鬼神,性侵一对母女获... “大师说只有跟他‘炼精化气’才能达到‘取坎填离’的效果,从而祛病消灾,实现逆势改命。我当时信以为真了...
快热式电热水器不出热水 发现热水器不出热水,这时候需要先检查冷热水管的安装,接反了的情况下热水器没有检测到水流动,自然是不会...
快热式热水器的组装方法 快热式热水器是一种现代化的热水器设备,安装方便,取暖速度非常快速。以下是快热式热水器的组装方法: ...
万和热水器e4故障是什么如何排... 万和热水器e4故障是什么如何排除万和热水器显示e4是高温报警,及干烧预警,热水出口温度在85℃以上。...