栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

Python爬取药监局化妆品管理信息发现的问题

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Python爬取药监局化妆品管理信息发现的问题

Python爬取药监局化妆品管理信息

**1.json格式本质上是字符串!!!
今天在爬取国家药监局化妆品管理信息的时候,发现"json数据本质上是字符串",以前我还以为json本身就是一种数据类型。。。
具体发现情况如下:

import requests
url=“http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList”
headers={
“user-agent”:“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36 Edg/94.0.992.38”
}
for i in range(1,21):
data={
“on”: “true”,
“page”: i,
“pageSize”: 15,
“productName”:"",
“conditionType”: 1,
“applyname”:"",
“applysn”:""
}
response=requests.post(url=url,headers=headers,data=data)
content=response.content.decode(“utf-8”)
print(content)
print(content[“list”])

输出结果:

TypeError: string indices must be integers

然后上网查找资料,Python json模块常用方法这篇文章中,发现json本质上是字符串
,然后调用json模块的loads方法,最终成功调用出list,找出我所需要的id。
代码如下:

import requests
import json
url="http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList"
headers={
    "user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36 Edg/94.0.992.38"
}
for i in range(1,21):
    data={
        "on": "true",
        "page": i,
        "pageSize": 15,
        "productName":"",
        "conditionType": 1,
        "applyname":"",
        "applysn":""
    }
    response=requests.post(url=url,headers=headers,data=data)
    content=response.content.decode("utf-8")
    # print(content)
    # print(content["list"])
    json_content=json.loads(content)
    print(json_content["list"][0])
print("爬取结束。。。")

输出结果:

{'ID': 'f3bc3d0378f3480ead53af1f6cf1b39c', 'EPS_NAME': '宁波美祥医疗科技有限公司', 'PRODUCT_SN': '浙妆20210046', 'CITY_CODE': None, 'XK_COMPLETE_DATE': {'date': 30, 'day': 4, 'hours': 0, 'minutes': 0, 'month': 8, 'nanos': 0, 'seconds': 0, 'time': 1632931200000, 'timezoneOffset': -480, 'year': 121}, 'XK_DATE': '2026-09-29', 'QF_MANAGER_NAME': '浙江省药品监督管理局', 'BUSINESS_LICENSE_NUMBER': '91330226MA2J5G412A', 'XC_DATE': '2021-09-30', 'NUM_': 1}
{'ID': '18e175c20ee24df2901baf0c059e7a15', 'EPS_NAME': '江苏欧亚立日化有限公司', 'PRODUCT_SN': '苏妆20160090', 'CITY_CODE': '86', 'XK_COMPLETE_DATE': {'date': 29, 'day': 3, 'hours': 0, 'minutes': 0, 'month': 8, 'nanos': 0, 'seconds': 0, 'time': 1632844800000, 'timezoneOffset': -480, 'year': 121}, 'XK_DATE': '2026-09-28', 'QF_MANAGER_NAME': '江苏省药品监督管理局', 'BUSINESS_LICENSE_NUMBER': '91321002564337856X', 'XC_DATE': '2021-09-29', 'NUM_': 16}
{'ID': '46af9af06e7644a483537a099c9666ea', 'EPS_NAME': '福建双飞日化有限公司', 'PRODUCT_SN': '闽妆20160024', 'CITY_CODE': '140', 'XK_COMPLETE_DATE': {'date': 28, 'day': 2, 'hours': 0, 'minutes': 0, 'month': 8, 'nanos': 0, 'seconds': 0, 'time': 1632758400000, 'timezoneOffset': -480, 'year': 121}, 'XK_DATE': '2026-09-27', 'QF_MANAGER_NAME': '福建省药品监督管理局', 'BUSINESS_LICENSE_NUMBER': '91350603156605081G', 'XC_DATE': '2021-09-28', 'NUM_': 31}
{'ID': '4a235bfaed9a459ca973700e5812e884', 'EPS_NAME': '澳亚生物医药科技(广州)有限公司', 'PRODUCT_SN': '粤妆20210222', 'CITY_CODE': None, 'XK_COMPLETE_DATE': {'date': 27, 'day': 1, 'hours': 0, 'minutes': 0, 'month': 8, 'nanos': 0, 'seconds': 0, 'time': 1632672000000, 'timezoneOffset': -480, 'year': 121}, 'XK_DATE': '2026-08-12', 'QF_MANAGER_NAME': '广东省药品监督管理局', 'BUSINESS_LICENSE_NUMBER': '91440101MA9UWP9785', 'XC_DATE': '2021-09-27', 'NUM_': 46}
{'ID': 'cf961eeceb544494aa8a4b59fb716225', 'EPS_NAME': '广州尚慧化妆品有限公司', 'PRODUCT_SN': '粤妆20161523', 'CITY_CODE': None, 'XK_COMPLETE_DATE': {'date': 27, 'day': 1, 'hours': 0, 'minutes': 0, 'month': 8, 'nanos': 0, 'seconds': 0, 'time': 1632672000000, 'timezoneOffset': -480, 'year': 121}, 'XK_DATE': '2026-09-26', 'QF_MANAGER_NAME': '广东省药品监督管理局', 'BUSINESS_LICENSE_NUMBER': '914401116681263241', 'XC_DATE': '2021-09-27', 'NUM_': 61}
{'ID': '27a83345deea447bbb4be503b685b57d', 'EPS_NAME': '汕头市新金宝化妆品有限公司', 'PRODUCT_SN': '粤妆20161382', 'CITY_CODE': None, 'XK_COMPLETE_DATE': {'date': 26, 'day': 0, 'hours': 0, 'minutes': 0, 'month': 8, 'nanos': 0, 'seconds': 0, 'time': 1632585600000, 'timezoneOffset': -480, 'year': 121}, 'XK_DATE': '2026-09-25', 'QF_MANAGER_NAME': '广东省药品监督管理局', 'BUSINESS_LICENSE_NUMBER': '9144051470797559XX', 'XC_DATE': '2021-09-26', 'NUM_': 76}
{'ID': '38ae87a2a72b474db57695dc53486300', 'EPS_NAME': '上海沪汇日用化学品有限公司', 'PRODUCT_SN': '沪妆20160042', 'CITY_CODE': None, 'XK_COMPLETE_DATE': {'date': 24, 'day': 5, 'hours': 0, 'minutes': 0, 'month': 8, 'nanos': 0, 'seconds': 0, 'time': 1632412800000, 'timezoneOffset': -480, 'year': 121}, 'XK_DATE': '2021-11-01', 'QF_MANAGER_NAME': '上海市药品监督管理局', 'BUSINESS_LICENSE_NUMBER': '913101151339638635', 'XC_DATE': '2021-09-24', 'NUM_': 91}
{'ID': '86ef648c155e400ebaee666c41ac6660', 'EPS_NAME': '深圳市诗黛美化妆品有限公司', 'PRODUCT_SN': '粤妆20160496', 'CITY_CODE': None, 'XK_COMPLETE_DATE': {'date': 23, 'day': 4, 'hours': 0, 'minutes': 0, 'month': 8, 'nanos': 0, 'seconds': 0, 'time': 1632326400000, 'timezoneOffset': -480, 'year': 121}, 'XK_DATE': '2026-03-30', 'QF_MANAGER_NAME': '广东省药品监督管理局', 'BUSINESS_LICENSE_NUMBER': '91440300781382872K', 'XC_DATE': '2021-09-23', 'NUM_': 106}
{'ID': 'e25dc5ef72664b29b9bd1a0a20ce68d3', 'EPS_NAME': '中山市澳辉日用品有限公司', 'PRODUCT_SN': '粤妆20161565', 'CITY_CODE': None, 'XK_COMPLETE_DATE': {'date': 22, 'day': 3, 'hours': 0, 'minutes': 0, 'month': 8, 'nanos': 0, 'seconds': 0, 'time': 1632240000000, 'timezoneOffset': -480, 'year': 121}, 'XK_DATE': '2026-09-21', 'QF_MANAGER_NAME': '广东省药品监督管理局', 'BUSINESS_LICENSE_NUMBER': '91442000324886397L', 'XC_DATE': '2021-09-22', 'NUM_': 121}
{'ID': 'bc5093b1c5e84aedb00bf04554e65e53', 'EPS_NAME': '广州妆皇化妆品有限公司', 'PRODUCT_SN': '粤妆20161787', 'CITY_CODE': None, 'XK_COMPLETE_DATE': {'date': 18, 'day': 6, 'hours': 0, 'minutes': 0, 'month': 8, 'nanos': 0, 'seconds': 0, 'time': 1631894400000, 'timezoneOffset': -480, 'year': 121}, 'XK_DATE': '2026-09-17', 'QF_MANAGER_NAME': '广东省药品监督管理局', 'BUSINESS_LICENSE_NUMBER': '914401115622555909', 'XC_DATE': '2021-09-18', 'NUM_': 136}
{'ID': 'a3659ec4eb084c8ca50246499c997ba9', 'EPS_NAME': '天津柯的日化用品厂', 'PRODUCT_SN': '津妆20160015', 'CITY_CODE': '414', 'XK_COMPLETE_DATE': {'date': 18, 'day': 6, 'hours': 0, 'minutes': 0, 'month': 8, 'nanos': 0, 'seconds': 0, 'time': 1631894400000, 'timezoneOffset': -480, 'year': 121}, 'XK_DATE': '2026-09-17', 'QF_MANAGER_NAME': '天津市药品监督管理局', 'BUSINESS_LICENSE_NUMBER': '911201137736177230', 'XC_DATE': '2021-09-18', 'NUM_': 151}
{'ID': 'fdf60525ea264f2b8b7eee23badfdad6', 'EPS_NAME': '佛山市芳姿韵化妆品有限公司', 'PRODUCT_SN': '粤妆20210276', 'CITY_CODE': None, 'XK_COMPLETE_DATE': {'date': 16, 'day': 4, 'hours': 0, 'minutes': 0, 'month': 8, 'nanos': 0, 'seconds': 0, 'time': 1631721600000, 'timezoneOffset': -480, 'year': 121}, 'XK_DATE': '2026-09-15', 'QF_MANAGER_NAME': '广东省药品监督管理局', 'BUSINESS_LICENSE_NUMBER': '91440605MA56HUNF5A', 'XC_DATE': '2021-09-16', 'NUM_': 166}
{'ID': '7c6b67da8fc84406bfffb49f56267615', 'EPS_NAME': '浙江晋尚生物科技有限公司', 'PRODUCT_SN': '浙妆20210042', 'CITY_CODE': None, 'XK_COMPLETE_DATE': {'date': 15, 'day': 3, 'hours': 0, 'minutes': 0, 'month': 8, 'nanos': 0, 'seconds': 0, 'time': 1631635200000, 'timezoneOffset': -480, 'year': 121}, 'XK_DATE': '2026-09-14', 'QF_MANAGER_NAME': '浙江省药品监督管理局', 'BUSINESS_LICENSE_NUMBER': '91330782MA2M4EWN2N', 'XC_DATE': '2021-09-15', 'NUM_': 181}
{'ID': 'afdf6915ee894cbab2ab059cf223aab2', 'EPS_NAME': '青岛安芙兰芳香制品有限公司', 'PRODUCT_SN': '鲁妆20160026', 'CITY_CODE': None, 'XK_COMPLETE_DATE': {'date': 15, 'day': 3, 'hours': 0, 'minutes': 0, 'month': 8, 'nanos': 0, 'seconds': 0, 'time': 1631635200000, 'timezoneOffset': -480, 'year': 121}, 'XK_DATE': '2021-09-17', 'QF_MANAGER_NAME': '山东省药品监督管理局', 'BUSINESS_LICENSE_NUMBER': '91370214718002937M', 'XC_DATE': '2021-09-15', 'NUM_': 196}
{'ID': 'f7b2fae6bb7a4e2cb38a29a41cb0bc1f', 'EPS_NAME': '广州正鑫源化妆品有限公司', 'PRODUCT_SN': '粤妆20161388', 'CITY_CODE': None, 'XK_COMPLETE_DATE': {'date': 14, 'day': 2, 'hours': 0, 'minutes': 0, 'month': 8, 'nanos': 0, 'seconds': 0, 'time': 1631548800000, 'timezoneOffset': -480, 'year': 121}, 'XK_DATE': '2026-09-13', 'QF_MANAGER_NAME': '广东省药品监督管理局', 'BUSINESS_LICENSE_NUMBER': '914401116935546892', 'XC_DATE': '2021-09-14', 'NUM_': 211}
{'ID': '464b268a786544d69ab125d0d67b51f3', 'EPS_NAME': '广州市一言化妆品有限公司', 'PRODUCT_SN': '粤妆20170091', 'CITY_CODE': None, 'XK_COMPLETE_DATE': {'date': 13, 'day': 1, 'hours': 0, 'minutes': 0, 'month': 8, 'nanos': 0, 'seconds': 0, 'time': 1631462400000, 'timezoneOffset': -480, 'year': 121}, 'XK_DATE': '2026-09-12', 'QF_MANAGER_NAME': '广东省药品监督管理局', 'BUSINESS_LICENSE_NUMBER': '914401113210224117', 'XC_DATE': '2021-09-13', 'NUM_': 226}
{'ID': '9692425d9cff44f18e9d829016eb81fb', 'EPS_NAME': '美尔健(深圳)生物科技有限公司', 'PRODUCT_SN': '粤妆20200105', 'CITY_CODE': None, 'XK_COMPLETE_DATE': {'date': 10, 'day': 5, 'hours': 0, 'minutes': 0, 'month': 8, 'nanos': 0, 'seconds': 0, 'time': 1631203200000, 'timezoneOffset': -480, 'year': 121}, 'XK_DATE': '2025-06-30', 'QF_MANAGER_NAME': '广东省药品监督管理局', 'BUSINESS_LICENSE_NUMBER': '91440300MA5F94YB62', 'XC_DATE': '2021-09-10', 'NUM_': 241}
{'ID': 'ed59f3f277174532a0527bcc945acf6b', 'EPS_NAME': '广州市茗凯化妆品有限公司', 'PRODUCT_SN': '粤妆20161300', 'CITY_CODE': None, 'XK_COMPLETE_DATE': {'date': 10, 'day': 5, 'hours': 0, 'minutes': 0, 'month': 8, 'nanos': 0, 'seconds': 0, 'time': 1631203200000, 'timezoneOffset': -480, 'year': 121}, 'XK_DATE': '2026-09-09', 'QF_MANAGER_NAME': '广东省药品监督管理局', 'BUSINESS_LICENSE_NUMBER': '91440111691544276W', 'XC_DATE': '2021-09-10', 'NUM_': 256}
{'ID': 'd057db9b9980487fb441236ba42d94e6', 'EPS_NAME': '广州美富健康科技有限公司', 'PRODUCT_SN': '粤妆20210065', 'CITY_CODE': None, 'XK_COMPLETE_DATE': {'date': 9, 'day': 4, 'hours': 0, 'minutes': 0, 'month': 8, 'nanos': 0, 'seconds': 0, 'time': 1631116800000, 'timezoneOffset': -480, 'year': 121}, 'XK_DATE': '2026-03-01', 'QF_MANAGER_NAME': '广东省药品监督管理局', 'BUSINESS_LICENSE_NUMBER': '91440101MA9UWB4G1M', 'XC_DATE': '2021-09-09', 'NUM_': 271}
{'ID': '1bbb659cbe434f428c44a9c6cc8e7af3', 'EPS_NAME': '广州市雅蔻化妆品有限公司', 'PRODUCT_SN': '粤妆20170035', 'CITY_CODE': None, 'XK_COMPLETE_DATE': {'date': 8, 'day': 3, 'hours': 0, 'minutes': 0, 'month': 8, 'nanos': 0, 'seconds': 0, 'time': 1631030400000, 'timezoneOffset': -480, 'year': 121}, 'XK_DATE': '2026-09-07', 'QF_MANAGER_NAME': '广东省药品监督管理局', 'BUSINESS_LICENSE_NUMBER': '440111000161807', 'XC_DATE': '2021-09-08', 'NUM_': 286}
爬取结束。。。

2.正式获取每个化妆品公司的详细数据
为什么要获取id值呢?因为发现id值是请求信息所携带的参数。

import requests
import json
url="http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList"
headers={
    "user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36 Edg/94.0.992.38"
}
for i in range(1,6):
    data={
        "on": "true",
        "page": i,
        "pageSize": 15,
        "productName":"",
        "conditionType": 1,
        "applyname":"",
        "applysn":""
    }
    response=requests.post(url=url,headers=headers,data=data)
    content=response.content.decode("utf-8")
    json_content=json.loads(content)
    Id=json_content["list"]
    for hh in Id:
            final_url = "http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsById"
            data1 = {
                "id": hh["ID"]
            }
            final_response = requests.post(url=final_url, headers=headers, data=data1)
            final_content = final_response.text
            print(final_content)
print("爬取结束。。。")

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/300600.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号