scrapy-02：创建工程项目的简单步骤

scrapy 爬虫

实验

发布日期: 2017-12-16

文章字数: 632

阅读时长: 2 分

阅读次数:

前面看了一个爬虫的小例子，那么接下来就；来看看创建一个爬虫的步骤有哪些。

1 创建工程项目的简单步骤

（1）开始一个爬虫项目
进入一个你要创建爬虫的目录下面，在命令行窗口中执行如下代码：

scrapy startproject 项目名

其中项目名改成你将要创建的项目的名称
项目创建好了以后，进入该项目，可以看到如下的目录结构（其中tutorial是创建的项目名）

（2）创建一个spider文件模板
首先进入项目文件里，在项目文件里用命令行执行

scrapy genspider abc_spider www.baidu.com

命令行的第三个串是要创建的spider的名字，第四个是要爬取网页的链接地址。
这时，进入项目文件下的spider目录里面，就会发现一个abc_spider.py文件，这个就是创建的文件模板，用IDE打开，修改其内容。

# -*- coding: utf-8 -*-
import scrapy


class AbcSpiderSpider(scrapy.Spider):
    name = 'abc_spider'
    allowed_domains = ['www.baidu.com']
    start_urls = ['http://www.baidu.com/']

    def parse(self, response):
        #定义文件名
        filename=response.url.split('/')[-2]+"html"
        #打开文件并写入源代码
        with open(filename,"wb") as fp:
            fp.write(response.body)

（3）运行爬虫

scrapy crawl 爬虫名

于是就能看到一个html的文件。

2 自定义抓取项

（1）打开项目中的item.py文件，按照说明进行改写。

class FirstspiderItem(scrapy.Item):
    # define the fields for your item here like:
    title = scrapy.Field()
    desc = scrapy.Field()
    link=scrapy.Field()

（2）改写parse函数

# -*- coding: utf-8 -*-
import scrapy
from firstspider.items import FirstspiderItem

class AbcSpiderSpider(scrapy.Spider):
    name = 'abc_spider'
    allowed_domains = ['www.baidu.com']
    start_urls = ['http://www.baidu.com/']

    def parse(self, response):
        # #定义文件名
        # filename=response.url.split('/')[-2]+"html"
        # #打开文件并写入源代码
        # with open(filename,"wb") as fp:
        #     fp.write(response.body)
        #通过xpath获取要抓取的内容
        lis=response.xpath('//*[@id="head"]')
        for li in lis:
            #在这之前需要引入
            item=FirstspiderItem()
            #xpath百度首页不好举例
            item['title']=li.xpath('xpath路径').extract()
            item['link']=li.xpath('xpath路径').extract()
            item['desc'] = li.xpath('xpath路径').extract()
            #返回item
            yield item

（3）改写pipeline文件
这里不做修改，只是返回item即可。

class FirstspiderPipeline(object):
    def process_item(self, item, spider):
        return item

（4）运行爬虫
可以通过

scrapy list

来获取项目里面所包含的爬虫，然后运行你要执行的爬虫。抓取得结果一般情况下是存放在数据库中。

IrvingBei

https://irvingbei.github.io/2017/12/16/scrapy-02：使用步骤/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源 IrvingBei !

scrapy 爬虫

【自然语言处理入门】02：Kenlm语料库的制作与模型的训练

本文是《从自然语言处理到机器学习入门》系列课程的第二次作业，由于我的作业环境没有配好（配了n次了还是不行T_T），但是为了保证这一系列作业的完整性，于是经罗曜强律师同意，人工智能A7论坛授权，转载他的作业笔记。 1 基本要求通过自己训练的

2017-12-18 自然语言处理

自然语言处理木豆课程

scrapy-01：简单实列

最近开始学习自然语言处理，在自然语言处理的过程中，获取语料，处理语料都是非常重要的一部，因此在开始入门学习自然语言处理的同时，也开始练习一些爬虫，暑假时学过一点，但是也忘得差不多了，于是重新开始，并记录下来、 1 scrapy库介绍（

2017-12-16 实验

scrapy 爬虫

1 创建工程项目的简单步骤

2 自定义抓取项

你的赏识是我前进的动力