爬虫

1.创建项目

  • scrapy startproject p1

2.文件说明:

  • scrapy.cfg 项目的配置信息,主要为Scrapy命令行工具提供一个基础的配置信息。(真正爬虫相关的配置信息在settings.py文件中)
    items.py 设置数据存储模板,用于结构化数据,如:Django的Model
    pipelines 数据处理行为,如:一般结构化的数据持久化
    settings.py 配置文件,如:递归的层数、并发数,延迟下载等
    spiders 爬虫目录,如:创建文件,编写爬虫规则
    注意:一般创建爬虫文件时,以网站域名命名

3.编写爬虫

  • 在spiders目录中新建 xiaohuar_spider.py 文件

4.运行

  • 进入p1目录,运行命令scrapy crawl xiaohau —nolog
  • 格式:scrapy crawl+爬虫名 –nolog即不显示日志

[注]: scrapy 报错 no module named win32api解决方案如下:

  • pip install pypiwin32

转载请注明: 湖南大学-杜敏 爬虫

上一篇
数据库系统概论 数据库系统概论
数据库系统概论复习知识点1、数据/数据库/数据库管理系统/数据库系统的概念: 数据库系统是一个人-机系统,而数据库是用于存储数据的。 2、数据库系统的好处: 提高开发效率 少量修改应用程序 减轻DBA维护负担 3、文件系统和数据
2018-03-28 杜敏
下一篇
Hexo+GithubPage制作自己的博客 Hexo+GithubPage制作自己的博客
具体步骤如下:1. 创建一个文件夹(如Blog)2. 开始安装Hexo,在Bolg文件夹里面打开git bash,输入如下命令$ npm install hexo -g 3. 初始化Hexo$ hexo init 4. 输入命令,安装所
2018-01-30 杜敏