爬虫 | 湖南大学-杜敏

湖南大学-杜敏

湖南大学-杜敏

Never really desperate, only the lost of the soul.

爬虫

2018-03-28

1.创建项目

scrapy startproject p1

2.文件说明：

scrapy.cfg 项目的配置信息，主要为Scrapy命令行工具提供一个基础的配置信息。（真正爬虫相关的配置信息在settings.py文件中）
items.py 设置数据存储模板，用于结构化数据，如：Django的Model
pipelines 数据处理行为，如：一般结构化的数据持久化
settings.py 配置文件，如：递归的层数、并发数，延迟下载等
spiders 爬虫目录，如：创建文件，编写爬虫规则
注意：一般创建爬虫文件时，以网站域名命名

3.编写爬虫

在spiders目录中新建 xiaohuar_spider.py 文件

4.运行

进入p1目录，运行命令scrapy crawl xiaohau —nolog

格式：scrapy crawl+爬虫名 –nolog即不显示日志

[注]: scrapy 报错 no module named win32api解决方案如下：

pip install pypiwin32

赏

转载请注明: 湖南大学-杜敏爬虫

上一篇

数据库系统概论

数据库系统概论

数据库系统概论复习知识点1、数据/数据库/数据库管理系统/数据库系统的概念：数据库系统是一个人-机系统，而数据库是用于存储数据的。 2、数据库系统的好处：提高开发效率少量修改应用程序减轻DBA维护负担 3、文件系统和数据

2018-03-28 杜敏

下一篇

Hexo+GithubPage制作自己的博客

Hexo+GithubPage制作自己的博客

具体步骤如下：1. 创建一个文件夹（如Blog)2. 开始安装Hexo，在Bolg文件夹里面打开git bash，输入如下命令$ npm install hexo -g 3. 初始化Hexo$ hexo init 4. 输入命令，安装所

2018-01-30 杜敏