Python 爬虫

请求库

request

urllib

selenium

自动化测试工具,驱动浏览器执行特定操作,如点击、下拉等,对于一些javascript渲染的页面非常有效

pip install selenium

浏览器驱动

ChromeDriver&GeckeoDriver

selenium是一个自动化测试工具,需要配合浏览器来使用,这里ChromeDriver&GeckeoDriver可以驱动谷歌&火狐浏览器

下载

1.检查浏览器版本
2.选择对应版本的驱动下载
3.将驱动.exe移动到python的scripts目录下

PhantomJS

PhantomJS是一个无界面的、可脚本编程的WebKit浏览器引擎,支持多种Web标准:DOM、CSS、JSON、SVG等

selenium支持PhantomJS,这样运行的时候就不会弹出一个浏览器了

在selenium中使用的话只需要将Chrome换成PhantomJS

from selenium import webdriver

browser=webdriver.PhantomJS()
browser.get('https://www.baidu.com)
print(broser.current_url)

aiohttp

requests库是阻塞式的,必须获得响应才会下一步,aiohttp提供异步web服务,从python3.5 python加入了saunc/await关键字,使回调的写法更加直观和人性化

解析库

lxml

Xpath

常用规则

表达式 描述
nodename 选取此节点的所有子节点
/ 从当前节点选区直接子节点
// 从当前节点选取子孙节点
. 选取当前节点
.. 选取当前节点的父节点
@ 选取属性

常用路径表达式

  • nodename 选取此节点的所有子节点。
  • / 从根节点选取。比如 /bookstore 是选取根元素bookstore, bookstore/book 是选取属于bookstore的子元素的所有book元素。
  • // 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。 //book 是选取所有book子元素, bookstore//book 选择属于bookstore元素的后代的所有book元素
  • . 选取当前节点。
  • .. 选取当前节点的父节点。
  • @ 选取属性。 //@lang 选取名为lang的所有属性。
  • /text() 提取标签下面的文本内容
  • //标签名[@属性=“属性值”] 提取包含属性为属性值的标签

谓语用来查找某个特定的节点或者包含某个指定的值的节点。谓语被嵌在方括号中。带有谓语的一些路径表达式:

  • /bookstore/book[1] 选取属于 bookstore 子元素的第一个 book 元素。
  • /bookstore/book[last()] 选取属于 bookstore 子元素的最后一个 book 元素。
  • /bookstore/book[last()-1] 选取属于 bookstore 子元素的倒数第二个 book 元素。
  • /bookstore/book[position()<3] 选取最前面的两个属于 bookstore 元素的子元素的 book 元素。
  • //title[@lang] 选取所有拥有名为 lang 的属性的 title 元素。
  • //title[@lang=‘eng’] 选取所有 title 元素,且这些元素拥有值为 eng 的 lang 属性。
  • /bookstore/book[price>35.00] 选取 bookstore 元素的所有 book 元素,且其中的 price 元素的值须大于 35.00。
  • /bookstore/book[price>35.00]//title 选取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值须大于 35.00。

选取未知节点

XPath通配符可用来选取未知的XML元素。

  • * 匹配任何元素节点。 /bookstore/* 选取 bookstore 元素的所有子元素。 //* 选取文档中的所有元素。
  • @* 匹配任何属性节点。 //title[@*] 选取所有带有属性的 title 元素。
  • node() 匹配任何类型的节点。

选取若干路径

  • //book/title | //book/price 选取 book 元素的所有 title 和 price 元素。
  • //title | //price 选取文档中的所有 title 和 price 元素。
  • /bookstore/book/title | //price 选取属于 bookstore 元素的 book 元素的所有 title 元素,以及文档中所有的 price 元素。

Xpath运算符

  • | 计算两个节点集
  • + - * div 分别表示加减乘除
  • = 等于, != 不等于, < 小于, <= 小于或等于, > 大于, >= 大于或等于
  • or 或, and 与
  • mod 计算除法的余数

demo

import requests
import os
from lxml import etree
import logging
logging.captureWarnings(True)

if not os.path.exists('C:\\Users\\HP\\Desktop\\bizhi\\'):
    os.makedirs('C:\\Users\\HP\\Desktop\\bizhi\\')
url='https://xinzhuobu.com/?cat=1&order=hot'
proxies = { "http": None, "https": None}
headers={"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36 Edg/97.0.1072.76"}
page=requests.get(url=url,headers=headers,  proxies=proxies,verify=False).text
tree=etree.HTML(page)
img_list=tree.xpath('//div[@class="site"]/div[@class="site-content"]/div[@class="container"]/div[@class="row"]//div[@class="content-area"]//div[@class="row posts-wrapper"]/div[@class="col-lg-1-5 col-6 col-sm-6 col-md-4 col-lg-3"]')
a='1'
for i in img_list:
    img_src=i.xpath('./article/div[@class="entry-media"]/div[@class="placeholder"]//img/@data-src')[0]
    
    img_name=a+'.jpg'
    a=str(int(a)+1)
    
    
    imgg=requests.get(url=img_src,headers=headers ,proxies=proxies,verify=False).content

    img_path="C:\\Users\\HP\\Desktop\\bizhi\\"+img_name
    with open(img_path,'wb')as f:
        f.write(imgg)
        print(img_name,'下载成功')

Beautiful Soup

文档https://beautifulsoup.readthedocs.io/zh-cn/v4.4.0/#

下表列出了主要的解析器,以及它们的优缺点:

解析器 使用方法 优势 劣势
Python标准库 BeautifulSoup(markup, "html.parser") Python的内置标准库执行速度适中文档容错能力强 Python 2.7.3 or 3.2.2)前 的版本中文档容错能力差
lxml HTML 解析器 BeautifulSoup(markup, "lxml") 速度快文档容错能力强 需要安装C语言库
lxml XML 解析器 BeautifulSoup(markup, ["lxml-xml"])``BeautifulSoup(markup, "xml") 速度快唯一支持XML的解析器 需要安装C语言库
html5lib BeautifulSoup(markup, "html5lib") 最好的容错性以浏览器的方式解析文档生成HTML5格式的文档 速度慢不依赖外部扩展

将一段文档传入BeautifulSoup 的构造方法,就能得到一个文档的对象, 可以传入一段字符串或一个文件句柄.

from bs4 import BeautifulSoup

soup = BeautifulSoup(open("index.html"))
soup = BeautifulSoup("<html>data</html>")

对象的种类

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: Tag , NavigableString , BeautifulSoup , Comment .

Tag

Tag 对象与XML或HTML原生文档中的tag相同:

tag的属性可以被添加,删除或修改. 再说一次, tag的属性操作方法与字典一样

soup = BeautifulSoup('<b class="boldest">Extremely bold</b>')
tag = soup.b
type(tag)
# <class 'bs4.element.Tag'>

Tag有很多方法和属性,在 遍历文档树搜索文档树 中有详细解释.现在介绍一下tag中最重要的属性: name和attributes

正则表达式

如果传入正则表达式作为参数,Beautiful Soup会通过正则表达式的 match() 来匹配内容.下面例子中找出所有以b开头的标签,这表示标签都应该被找到:

import re
for tag in soup.find_all(re.compile("^b")):
    print(tag.name)
# body
# b

下面代码找出所有名字中包含”t”的标签:

for tag in soup.find_all(re.compile("t")):
    print(tag.name)
# html
# title
from bs4 import BeautifulSoup
html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""
soup = BeautifulSoup(html_doc, 'html.parser')
print(soup.prettify()) #prettify()方法打印出格式化的HTML内容

几个简单的浏览结构化数据的方法:

soup.title
# <title>The Dormouse's story</title>

soup.title.name
# u'title'

soup.title.string
# u'The Dormouse's story'

soup.title.parent.name
# u'head'

soup.p
# <p class="title"><b>The Dormouse's story</b></p>

soup.p['class']
# u'title'

soup.a
# <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

soup.find_all('a')
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
#  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
#  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

soup.find(id="link3")
# <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

从文档中找到所有标签的链接:

for link in soup.find_all('a'):
    print(link.get('href'))
    # http://example.com/elsie
    # http://example.com/lacie
    # http://example.com/tillie

从文档中获取所有文字内容:

print(soup.get_text())
# The Dormouse's story
#
# The Dormouse's story
#
# Once upon a time there were three little sisters; and their names were
# Elsie,
# Lacie and
# Tillie;
# and they lived at the bottom of a well.
#
# ...

pyquery

tesserocr

存储

数据库

数据库想要和python交互的话需要安装一些python存储库,mysql需要安装PyMySQL,redis需要安装redis-py

pipinstall pymysql redis

json

json跟python中的字典看起来很像,两者之间的区别? 1)json的key只能是字符串,dict的key可以是任何可hash的对象,例如:字符串、数字、元组等;

2)字典是一种==数据结构==,json是一种==数据格式==;字典有很多内置函数,有多种调用方法,而json是数据打包的一种格式,并不像字典具备操作性;

3)json的字符串强制用双引号,dict的字符串可以用单引号、双引号;

一般而言,我们会把json转化为python中的字典或者列表,再对其进行操作。 Pythone3的标准库JSON模块,可以很方便的帮我们进行json数据的转换和处理,这里主要指序列化(json.dumps()、json.dump())和反序列化(json.loads()、json.load())。

常用的JSON模块方法:

  • json.dumps():将Python中的对象转换为JSON中的字符串对象

  • json.dump():将python对象转换成JSON字符串输出到fp流中。

  • json.loads():将JSON中的字符串对象转换为Python中的对象

  • json.load():读取包含json对象的文件。

    带s的都是和字符串相关的,不带s的都是和文件相关的。

image-20230512164154768

json类型转换到Python的类型对照表

image-20230512164230404

实例

把字典转换成json串

import json
dic = {'name': 'xiaoming', 'age': 29}
json_str = json.dumps(dic)#返回json字符串
print(json_str)
print(type(json_str))
输出{"name": "xiaoming", "age": 29}
<class 'str'>

Python解码JSON对象

import json
json_str ='{"id":"09", "name": "Nitin", "department":"Finance"}'
# Convert string to Python dict
dict = json.loads(json_str)
print(dict)
#转换成字典来后,要访问其中的值,可以使用字典的key来访问
print(dict['id'])
输出{'id': '09', 'name': 'Nitin', 'department': 'Finance'}
09

读取json文件

import json
with open('test1.json') as f:
    a = json.load(f)
print(a)
print(type(a))
输出{'sites': [{'name': '360', 'url': 'www.360.com'}, {'name': 'google', 'url': 'www.google.com'}, {'name': 'baidu', 'url': 'www.baidu.com'}]}
<class 'dict'>

写入json文件

import json
    dic ={
        "name" : "xiaoming",
        "age" : 20,
        "phonenumber" : "15555555555"
    }

    with open("test2.json", "w") as outfile:
        json.dump(dic, outfile)

    文件test.json {"name": "xiaoming", "age": 20, "phonenumber": "15555555555"}

web库

flask是一个轻量级的web服务,这里主要提供API服务

代理

爬虫框架

pyspider

scrapy

requests文件上传

一、文件上传

先将文件读取至内存中,再将内存中的文件信息上传至服务器

单文件上传

①文件上传代码,运行后logo.png文件上传至服务器:

import requests

files = {'file1': open('logo.png', 'rb')}
response = requests.post('http://www.hangge.com/upload.php', files=files)
print(response.text)

②显式地设置文件名,文件类型和请求头:

import requests

files = {'file1':
             ('logo.png',  # 文件名
              open('logo.png', 'rb'),  # 文件流
              'image/png',  # 请求头Content-Type字段对应的值
              {'Expires': '0'})
         }
response = requests.post('http://www.hangge.com/upload.php', files=files)
print(response.text)

多文件上传

有时需要在一个请求中同时发送多个文件,同样使用 files 参数传入一个数组即可:

import requests

files = [
    ('file1', ('1.png', open('logo.png', 'rb'), 'image/png')),
    ('file2', ('2.png', open('logo.png', 'rb'), 'image/png'))
]
response = requests.post('http://www.hangge.com/upload.php', files=files)
print(response.text)

上传文件时需要附带其它参数 如果我们需要在上传文件的同时传递一些其它参数,也是可以的:

import requests

data = {
    "name": "hangge.com",
    "age": 100
}
files = [
    ('file1', ('1.png', open('logo.png', 'rb'), 'image/png')),
    ('file2', ('2.png', open('logo.png', 'rb'), 'image/png'))
]
response = requests.post('http://www.hangge.com/upload.php', data=data, files=files)
print(response.text)

二、流式上传文件

边读取文件边上传文件

1、requests-toolbelt 扩展库 ①有时我们需要上传一个非常大的文件(比如 1G 左右),如果像上面的方式直接使用 Requests 提交,可能会造成内存不足而崩溃。

②所以发送大文件时还是建议将请求做成数据流。不过默认情况下 Requests 不支持流式上传,但有个第三方包 requests-toolbelt 是支持的(本质还是 multipart/form-data 上传)

③ requests-toolbelt 是python请求的实用程序集合。

2、下载安装 requests-toolbelt 第三方库

pip install requests-toolbelt

3、使用流式上传文件: 实例:使用 requests-toolbelt 来实现文件的流式上传:

①不同于 requests 全部读到内存中上传, requests-toolbelt 是边读边上传。

②其本质还是 multipart/form-data 方式提交数据,所以服务端代码不需要变化。

import requests
from requests_toolbelt import MultipartEncoder

m = MultipartEncoder(
    fields={'name': 'logo.com',  # 字段1
            "age": '100',  # 字段2
            'file1': ('1.png', open('logo.png', 'rb'), 'image/png'),  # 文件1
            'file2': ('2.png', open('logo.png', 'rb'), 'image/png')  # 文件2
            }
)
r = requests.post('http://www.hangge.com/upload.php', data=m, headers={'Content-Type': m.content_type})
print(r.text)

4、监听上传进度 ① requests-toolbelt 库 还提供了个监视器MultipartEncoderMonitor ,该监视器接受一个回调函数,我们可以在回调中实时跟踪进度。

import requests
from requests_toolbelt import MultipartEncoder, MultipartEncoderMonitor


def my_callback(monitor):
    progress = (monitor.bytes_read / monitor.len) * 100
    print("\r 文件上传进度:%d%%(%d/%d)" % (progress, monitor.bytes_read, monitor.len), end=" ")


e = MultipartEncoder(
    fields={'name': 'logo.com',  # 参数1
            "age": '100',  # 参数2
            'file1': ('1.png', open('logo.png', 'rb'), 'image/png'),  # 文件1
            'file2': ('2.png', open('logo.png', 'rb'), 'image/png')  # 文件2
            }
)

m = MultipartEncoderMonitor(e, my_callback)

r = requests.post('http://www.hangge.com/upload.php', data=m, headers={'Content-Type': m.content_type})

多线程爬虫

0%