栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

如何获取全国省市区行政边界数据

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

如何获取全国省市区行政边界数据

今天我们以高德地图为例,讲解一下如何获取全国省市区行政边界数据。

高德开放平台Web服务API

https://lbs.amap.com/

依次点击开发支持–Web服务–Web服务API,即可进入到高德开放平台Web服务API页面。

可以发现,官方已开放了行政区域查询的接口。

点击查看该接口的详细介绍:


其实就是先申请Key,然后构造Http请求,发送请求解析返回数据即可。

同时接口文档提到,该接口只能返回国、省、市、区的polyline(边界点集合),不支持街道级别,但已经满足我们的需求了。

首先分析下接口请求参数:


有4点值得关注:

keywords支持行政区名称、citycode、adcode这3种格式,行政区名称可能存在重复(尤其level是县/区时),而citycode只有level在市或市以下才有,只有adcode可以唯一指定某个行政区,所以检索的时候,我们使用adcode作为keywords传入;subdistrict可以指定子级行政区的嵌套层数;当最外层的districts超过20个元素时,需要配合page参数来获取全部元素;只有extensions配置为all时,接口才会返回我们需要的区域边界数据。

想要一次性采集全国省市区行政边界数据的话,第1步肯定是先设法拿到省、市、区的列表,然后逐个遍历。

我们可以设置keywords为"中华人民共和国",然后将subdistrict设置为3,下3层(省、市、区)的子行政区信息就会返回。

这样,我们发送1次请求就可以拿到省、市、区的列表了。

接着,我们将subdistrict调整为1(减少数据冗余),依次遍历各个行政区域即可。

实现代码如下:

# -*- coding:utf-8 -*-

import requests
import time
import mongo_util #自行封装的操作mongodb的工具类

def get_district_info(key, col, time_delay, headers={}):
    request_url = 'https://restapi.amap.com/v3/config/district'
    country_name = '中华人民共和国'
    params = {
        'subdistrict':'3',
        'extensions':'all',
        'key':key,
        'output':'json',
        'keywords':country_name,
    }
    # 设置subdistrict为3,1次请求获取到国、省、市、区的信息
    country_res = requests.get(url=request_url, headers=headers, params=params).json()
    if country_res['status'] != "1":
        print("调用高德地图Web API失败!")
        return
    country = country_res['districts'][0]
    col.insert_one(country)
    print(f'{country_name}数据插入成功!')
    params['subdistrict'] = '1'
    # 遍历省
    provinces = country['districts']
    for province in provinces:
        province_name = province['name']
        params['keywords'] = province['adcode']
        prov_res = requests.get(url=request_url, headers=headers, params=params).json()
        if prov_res['status'] == "0":
            print(f'{country_name}-{province_name}数据获取失败!')
            continue
        col.insert_one(prov_res['districts'][0])
        print(f'{country_name}-{province_name}数据插入成功!')
        time.sleep(time_delay)
        # 遍历市
        cities = province['districts']
        if len(cities) == 0:
            continue
        for city in cities:
            city_name = city['name']
            params['keywords'] = city['adcode']
            city_res = requests.get(url=request_url, headers=headers, params=params).json()
            if city_res['status'] == "0":
                print(f'{country_name}-{province_name}-{city_name}数据获取失败!')
                continue
            col.insert_one(city_res['districts'][0])
            print(f'{country_name}-{province_name}-{city_name}数据插入成功!')
            time.sleep(time_delay)
            # 遍历区
            districts = city['districts']
            if len(districts) == 0:
                continue
            for district in districts:
                distinct_name = district['name']
                params['keywords'] = district['adcode']
                distinct_res = requests.get(url=request_url, headers=headers, params=params).json()
                if distinct_res['status'] == "0":
                    print(f'{country_name}-{province_name}-{city_name}-{distinct_name}数据获取失败!')
                    continue
                col.insert_one(distinct_res['districts'][0])
                print(f'{country_name}-{province_name}-{city_name}-{distinct_name}数据插入成功!')
                time.sleep(time_delay)
# 主函数
if __name__ == '__main__':
    key = "******"
	# 接口请求之间的间隔
    time_delay = 0.01
    db_name = 'web_map'
    col_name = 'distinct'
	# MongoDB数据库所在的服务器
    host = '******'
    port = 27017
    # 获取mongodb的表句柄
    col = mongo_util.get_col(db_name, col_name, host, port)
    # 获取全国各级行政区的数据
    get_district_info(key, col, time_delay)

因为接口返回的是JSON类型的嵌套数据,所以这里选择MongoDB作为存储组件。

为了防止爬取过程中,进程宕掉导致已请求的数据丢失,可以拿到1条数据就入库1条数据。

避免数据全都在内存中,执行批量插入的过程中异常退出,又得重复请求,但每个账号的天请求次数是有限制的。

同时,各个接口均有QPS阈值,所以我们通过time_delay参数来控制数据采集的频率。

但是高德开方平台Web服务API有天调用次数的限制,如果想获取大量数据,可能需要多个账号或者分多天进行请求,有没有更好的方法呢?

带着这样的疑问,我又看了看高德地图其他的API版块。

JS API

浏览高德开放平台的JS API示例,里面也有个行政区边界查询的Demo。

https://lbs.amap.com/demo/jsapi-v2/example/district-search/draw-district-boundaries

打开浏览器的"开发者工具",我们抓包一下哪个请求是用来获取行政区域数据的。


哈哈哈,其实跟开放的Web API接口地址是一致的,而且通过分析接口请求,我们直接可以拿到key。

也就是说,不需要用自己高德账号里生成的key值了。

使用这个key构建接口请求,悲伤的发现,接口返回异常。


说明该接口其实还是跟开放的Web API接口还是有区别的,一般体现在请求参数和Headers上。

我们把浏览器抓取到的请求参数和Headers配置原封不动的拷贝过来,再次构建接口请求,此时接口正常返回。

但请求参数里的csid是个啥东西,而且不同行政区域请求里的csid还不同。


尝试着去掉该参数,然后构建接口请求,发现接口仍然可以正常返回,说明该参数是可选参数,而且不是检索字段。

按照这个思路,我们逐步尝试去掉其他请求参数和Headers里的配置。

发现该接口与开放的Web API接口相比,本质仅有2点不同:

请求参数

请求参数需要额外指定: s=rsv3

Headers

需要添加如下Headers:


调整原来的代码:

在params里增加s配置

params = {
	'subdistrict':'3',
	'extensions':'all',
	'key':key,
	'output':'json',
	'keywords':country_name,
	's':'rsv3' # 该项配置是关键配置
}

在发送请求的时候传入headers

headers = {
	'Host': 'restapi.amap.com',
	'Referer': 'https://lbs.amap.com/'
}
# 获取mongodb的表句柄
col = mongo_util.get_col(db_name, col_name, host, port)
# 获取全国各级行政区的数据
get_district_info(key, col, time_delay, headers)

该种方法的优点是绕开了第1种方法的日调用次数限制(高德是否有额外的反爬策略,待验证)。

AMAP Service

其实前面headrs的Referer配置就提醒我了,是不是高德地图在https://lbs.amap.com/这个地址下也有功能相同的接口。

所以就在高德平台上随意点了点,逛了逛,还真就发现了,哈哈哈。


与上面两个接口不同的是,这个接口是POST请求,而且竟然不需要指定key,这也太爽了吧,哈哈哈。

接着看一下请求参数:


参数和开放平台Web服务API的完全一致。

最后看一下表单数据:

显然表单数据是用来配置请求哪个接口的,这里的config/district代表的就是行政区域查询。

代码调整起来也不难:

# 调整请求的url
request_url = 'https://lbs.amap.com/service/api/restapi'
# 将所有的请求调整为POST,并传入表单数据,例如:
body = {
        "type": "config/district",
        "version": "v3"
    }
country_res = requests.post(url=request_url, params=params, data=body).json()

该接口跟第2种接口相比,更近一步,连key值都省略了。

总结

本文介绍了3种基于高德地图获取全国省市区行政边界数据的方法。

获取到数据之后,可以进一步处理。

比如: 我使用pyshp包将采集到的数据转换成了shp文件,然后可以在GIS软件里进行可视化编辑。


也可以再爬取各个行政区的人口、GDP等数据,制作人口热力图等,这里不再赘述,读者可自行实践。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/740423.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号