记一次不太成功的爬取dingtalk上的企业的信息
admin
2023-07-19 12:42:35
0

首先打开这个链接https://www.dingtalk.com/qiye/1.html,可以网页列出了很多企业,点击企业,就看到了企业的信息。
记一次不太成功的爬取dingtalk上的企业的信息
所以,我们的思路就很明确了,通过https://www.dingtalk.com/qiye/1.html这个入口链接获取企业的URL,然后通过访问企业的URL获取企业的信息。在jupyter notebook中试一下。
记一次不太成功的爬取dingtalk上的企业的信息
企业的URL已经获取到了,然后再访问企业的URL,看看能否获取到企业的信息。
没有。
写请求头,请求头包含两项,一个是cookie,一个user-agent。加上请求头再试试看,有了。
记一次不太成功的爬取dingtalk上的企业的信息
发现企业信息在js代码里,写正则表达式

patterns = r'"businessInfoData":{"enterpriseName":"(.*?)","frName":"(.*?)","enterpriseType":"(.*?)","enterpriseStatus":"(.*?)","regCap":"(.*?)","regCapCur":"(.*?)","esDate":"(.*?)","regOrg":"(.*?)","operateScope":"(.*?)","address":"(.*?)","regNo":"(.*?)","creditCode":"(.*?)","region":"(.*?)"}'
results = re.findall(patterns, html)

ok,成功匹配出来
记一次不太成功的爬取dingtalk上的企业的信息
到此,发现很简单了,立马就把代码给写了出来,但发现一些问题,只有一部分企业的信息爬取了出来,大部分企业信息都获取失败了。这是咋回事呢,原来啊,有的企业URL源码里有企业信息,而有的没有。
记一次不太成功的爬取dingtalk上的企业的信息
记一次不太成功的爬取dingtalk上的企业的信息
然后,我查看完整企业信息,发现这个
记一次不太成功的爬取dingtalk上的企业的信息
但是,我无法构造这个链接,忧伤。
所以,整个爬虫到此为止。写代码的时候,原本想用入口链接不断下一页获取所有企业URL,但一想,算了吧,直接简单粗暴一点。然后呢,爬取的时候,爬取速度好慢。
最后,附上垃圾的源码github。

相关内容

热门资讯

美伊将在卡塔尔召开预备会议,双... 有关美伊在多哈的预备会议,目前有什么新消息?双方团队的讨论重点都有哪些?凤凰卫视特派记者曹劼从多哈发...
刚宣布“免费开放”,特朗普又要... 【文/观察者网 柳白】美国总统特朗普一边宣布霍尔木兹海峡“完全开放”,且无需缴纳通行费,而另一边大量...
专家:“美国治下的和平”已经结... 据凤凰卫视报道,美国尚未完全摆脱战争泥潭,但特朗普政府的战略重心转移已对其全球领导力产生深远影响。清...
经济热点快评|前5月经济成绩单... 韩鑫生产供给稳中有升、就业物价总体稳定,外贸韧性持续彰显……6月16日,前5月中国经济成绩单显示:今...
省研究型医院学会信息化与互联网... 6月12日-13日,山东省研究型医院学会信息化与互联网医疗分会第五届学术会议在滕州召开。滕州市中心人...
拒绝境外美元资本入局,我要为梁... 李光满冰点时评1523 前段时间,宇树科技选择与人形机器人领域的英伟达深度合作,在业内引发争议。我当...
场景牵引,让数据更好赋能智慧应... 人工智能加速走向千行百业,数据的价值也正在被重新定义。 从大模型训练到智能体应用,从服务业提效到品牌...
连续3次误判误传、延报未报,“... 澎湃新闻记者 吕新文福建宁德市海洋与渔业局6月16日公布《宁德福鼎“2·18”“闽福鼎渔08566”...
学者:美国已经铁了心,不会再为... 美伊将于瑞士签署停战谅解备忘录,但以色列仍持续袭击黎巴嫩真主党。中国人民大学区域国别研究院中东研究所...
场上“进球机器”,场下抖音“哈... ·2025年6月,哈兰德在国际足联2026年世界杯预选赛中,庆祝挪威队以3比0战胜意大利队。(法新社...