• 欢迎访问我的博客网站,推荐使用最新版火狐浏览器和 Chrome 浏览器访问本网站,欢迎加入本博客会员 QQ
  • 这是学习交流IT的最好去处之一
  • 最新版博客已支持说说碎语功能,可像添加文章一样直接添加说说,新建说说页面即可,最后发布即可,简单易用的博客网站,博客网址,点击及进入,欢迎发表你的博客。
  • 如果您觉得本站非常有看点,那么赶紧使用 Ctrl+D 收藏吧

Python爬虫学习笔记

IT分享交流 Luke Ewin 5个月前 (05-18) 126次浏览 0个评论 扫描二维码

requests 库的使用
get()方法,返回 Response 对象
get 方法中可用的参数有 url,headers,param….

requests 库中的方法
1.get
2.head
3.post
4.put
5.patch
6.delete

Response 对象的属性
1.status_code 返回状态码
2.text 以字符串形式返回网页内容
3.encoding 返回编码方式(从 header 中获得编码方式)
4.apparent_encoding 从内容中分析出响应内容的编码方式
5.content 以二进制形式呈现内容

例子:
import requests
r=requests.get(“https://www.baidu.com”)
r.status_code
r.encoding
r.apparent_encoding
r.encoding=r.apparent_encoding
r.text

Requests 库的异常处理
requests.ConnectionsError #网络连接异常
requests.HTTPError
requests.URLRequired#URL 缺失
requests.TooManyRedirects#太多重定向异常
requests.ConnectTimeout
requests.Timeout

爬取网页的通用代码框架
import requests
def getHTMLText(url):
try:
r=requests.get(url,timeout=60)
r.raise_for_status()##如果状态码不是 200,引发 HTTPError 异常
r.encoding=r.apparent_encoding
return r.text
except:
return “产生异常”

if name==”main“;
url=”https://www.baidu.com”
print(getHTMLText(url))


我的博客 Myblog,版权所有 | 如未注明,均为原创
文章标题:Python 爬虫学习笔记
转载请保留文章地址:https://myblog.lukeewin.top/pyhon/
喜欢 (5)
[]
分享 (0)
Luke Ewin
关于作者:
欢迎你的到来,我是Luke Ewin,这是我创建的个人博客,用于分享学习交流IT技术,如果你喜欢写博文,如果你喜欢分享,欢迎你投稿。
发表我的评论
取消评论

表情 加粗 删除线 居中 斜体 签到