登录后台

页面导航

安装工具

pip

在Pyhon的安装目录下的Scripts文件夹应有pip.exe pip3.exe pip3.x.exe,则可以使用pip包管理工具

pip基本命令

打开CMD窗口,通过pip命令安装包

在国内有较大几率会出现下载失败及下载速度过慢问题,可以使用国内仓库源

在安装命令后加上-i 国内源地址

维护机构 地址
清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/
阿里云 http://mirrors.aliyun.com/pypi/simple/
中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/

安装:pip install 包名称 -i 国内源地址

卸载:pip uninstall 包名称

列出已安装包:pip list

==如果pip命令无法执行,请检查环境配置(环境变量配置)==

爬虫常用库

发送请求与web自动化

  • requests

安装:使用pip命令安装

作用:模拟发送与接收http请求

  • Selenium

安装:使用pip命令安装

作用:自动化测试工具,通过代码自动化调用主流浏览器

  • PhantomJS

安装:官网下载,环境变量PATH添加路径

作用:无界面浏览器,可配合Selenium使用

  • flask

安装:使用pip命令安装

作用:架设web服务器,用于爬虫的代理

网页内容解析

  • lxml

安装:使用pip命令安装

作用:网页内容解析

  • beautifulsoup4

安装:使用pip命令安装(依赖lxml)

作用:提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据。

  • pyquery

安装:使用pip命令安装

作用:网页内容解析,API类似JQuery

存储库

  • pymysql

安装:使用pip命令安装

作用:对MySQL数据库基础操作支持

  • pymongo

安装:使用pip命令安装

作用:对MongoDB数据库基础操作支持,MongoDB为非关系型数据库,可动态添加字段

  • redis

安装:使用pip命令安装

作用:非关系型数据库,在爬虫队列中作为后端缓存