1.创建项目
- scrapy startproject p1
2.文件说明:
- scrapy.cfg 项目的配置信息,主要为Scrapy命令行工具提供一个基础的配置信息。(真正爬虫相关的配置信息在settings.py文件中)
items.py 设置数据存储模板,用于结构化数据,如:Django的Model
pipelines 数据处理行为,如:一般结构化的数据持久化
settings.py 配置文件,如:递归的层数、并发数,延迟下载等
spiders 爬虫目录,如:创建文件,编写爬虫规则
注意:一般创建爬虫文件时,以网站域名命名
3.编写爬虫
- 在spiders目录中新建 xiaohuar_spider.py 文件
4.运行
- 进入p1目录,运行命令scrapy crawl xiaohau —nolog
- 格式:scrapy crawl+爬虫名 –nolog即不显示日志
[注]: scrapy 报错 no module named win32api解决方案如下:
- pip install pypiwin32