- crontab
- 创建项目
在命令行,为当前用户编辑定时任务
#选择编辑器
select-editor
usage: crontab [-u user] file
crontab [ -u user ] [ -i ] { -e | -l | -r }
(default operation is replace, per 1003.2)
-e (edit user's crontab) 编辑定时任务
-l (list user's crontab)
-r (delete user's crontab)
-i (prompt before deleting user's crontab)
#进入编辑定时任务
crontab -u lauf -e
#m h dom mon dow command
1 * * * * ls >> log.txt 2>&1 &
1 * * * * /home/lauf/spider.sh
#保存退出
#这里的时间是具体的时间点,以上为每月、每周、每天、每小时的第一分钟执行该命令
#每分钟执行一次 */1 * * * *
#每天的22:00执行 0 22 * * * xxxx
#编辑spider.sh,并加可执行权限
sudo vim spider.sh
#!/bin/bash
lauf_spider
#sudo chmod -R u+x spider.sh
#需要先定义别名,进入项目,然后执行。
alias lauf_spider="cd /home/tarena/Lauf;scrapy crawl lauf"
service cron start|restart|stop #不重启服务也可以
定时使用的命令,需在cron的PATH路径中,它与系统PATH不同
cd /etc/cron.d/anacron创建项目
scrapy startproject Lauf
cd Lauf
#在项目目录下创建爬虫文件
scrapy genspider lauf domain
#在项目目录下执行 启动
scrapy crawl lauf
#1 配置 settings.py
#2 定义数据结构items.py
class D1Item(scrapy.Item):
name = scrapy.Field()
price = scrapy.Field()
#3 定义spiders内部的爬虫文件
class LaufSpider(scrapy.Spider):
name = 'lauf' #project name
allowed_domain = ["www.baidu.com"]
start_url = ["http://www.baidu.com"]
def parse(self,response):
item = D1Item()
item["name"] = response.xpath("/xx/xx/text()").get()
item['url'] = response.xpath("/div/img/@url").get()
#storage data,give data to pipeline
yield item
#give url to scheduler
yield scrapy.Request(url=item["url"],callback=self.parse,meta={"item":item,"proxy":proxy})
#4 定义管道pipelines.py
class D1Pipeline(object):
def open_spider(self,spider):
"""打开爬虫时,执行一次,用于数据库的连接"""
self.conn = pymysql.connect(host="localhost",port=3306,user=user,password=password,db="dbname")#尽量按照这个格式写
self.cursor = self.conn.cursor()
def process_item(self,item,spider):
sql = "insert into stu(name,url) values (%s,%s);"
data = [item["name"],item["url"]]
self.cursor.execute(sql,data)
#self.cursor.executemany(sql,datas)
self.conn.commit()
return item
def close_spider(self,spider):
"""关闭爬虫时,执行一次,用于关闭数据库"""
self.cursor.close()
self.conn.close()
#安装管道
ITEM_PIPELINES = {
#项目.模块.类: 优先级(越小越优先)
'Lauf.pipelines.LaufPipeline': 300,
}
上一篇:js里的困惑



