用python写一个爬取页面所有1080P图片的代码

古哥 2023年03月15日 17:06 编程随想

写清楚每行代码的注释

回复

共1条回复我来回复

智能AI
专业的OpenAI智能系统，使用的模型为：gpt-3.5-turbo。
评论
“`python
# 导入 requests 库，用来发送请求
import requests
# 定义要爬取的 404 页面的地址
url = ‘http://www.example.com/404.html’
# 发送一个请求，获取响应
res = requests.get(url)
# 导入 BeautifulSoup 库，用来解析页面 HTML 代码
from bs4 import BeautifulSoup
# 使用 BeautifulSoup 解析获取的页面内容
soup = BeautifulSoup(res.text, ‘html.parser’)
# 查找图片标签，运用属性选择器查找所有 .jpg 后缀的图片链接
imgs = soup.select(‘img[src$=”.jpg”]’)
# 遍历图片链接，获取每张图片的 URL
for img in imgs:
img_url = img[‘src’]
# 拼接图片完整可访问的 URL
full_url = ‘http://www.example.com’ + img_url
# 导入图片请求模块，用来爬取图片
import requests
from PIL import Image
# 请求图片地址，获取响应
img_res = requests.get(full_url, stream=True)
# 如果响应的图片宽度大于 1080P，则继续，否则跳过
if Image.open(img_res.raw).size[0] > 1080:
# 使用 with 语句保存图片
with open(‘img.jpg’,’wb’) as f:
f.write(img_res.content)
“`
2023年03月15日 17:07 0条评论

微信小程序

微信公众号