新闻动态

python简单爬虫--get方式详解

发布日期:2022-01-10 12:38 | 文章来源:源码之家

简单爬虫可以划分为get、post格式。其中,get是单方面的获取资源,而post存在交互,如翻译中需要文字输入。本文主要描述简单的get爬虫。

环境准备

安装第三方库

pip install requests
pip install bs4
pip install lxml

进行爬虫

1.获取网页数据。

import requests
from bs4 import BeautifulSoup
url = "https://cn.bing.com/search?q=爬虫CSDN&qs=n&form=QBRE&sp=-1&pq=爬虫csdn&sc=5-6&sk=&cvid=0B13B88D8F444A0182A4A6C36E463179/"
response = requests.get(self.url)

2.解析网页数据

soup = BeautifulSoup(response.text, 'lxml')

3.选取目标数据。此处key 依据源代码目标标题的位置确定。首先进入开发者模式,后查看目标在html中的位置,右击选择“复制selector”,见下图。

key = "#b_results > li > div.b_title > h2 > a"
soup.select(key)

4.清洗数据

result = {}
for i, item in enumerate(data):
  result.update({
f'title_{i}': item.get_text(),
f'url_{i}': item.get('href')
  })
 print(result)

参考

链接:https://www.jb51.net/article/152560.htm

总结

本篇文章就到这里了,希望能够给你带来帮助,也希望您能够多多关注本站的更多内容!

版权声明:本站文章来源标注为YINGSOO的内容版权均为本站所有,欢迎引用、转载,请保持原文完整并注明来源及原文链接。禁止复制或仿造本网站,禁止在非www.yingsoo.com所属的服务器上建立镜像,否则将依法追究法律责任。本站部分内容来源于网友推荐、互联网收集整理而来,仅供学习参考,不代表本站立场,如有内容涉嫌侵权,请联系alex-e#qq.com处理。

相关文章

实时开通

自选配置、实时开通

免备案

全球线路精选!

全天候客户服务

7x24全年不间断在线

专属顾问服务

1对1客户咨询顾问

在线
客服

在线客服:7*24小时在线

客服
热线

400-630-3752
7*24小时客服服务热线

关注
微信

关注官方微信
顶部