# Changjin Lake film data from Weibo
# @Time: 20211006
# @Author: heheyang
import requests
import json
import re
import pprint
import pandas as pd
def comments_singlePage_crawl(url,headers,comments_info, id):
"""
评论单页爬取
:param url:
:param headers:
:return:
"""
# 获取html码
html = requests.get(url, headers).text
# json解析html
html_dict = json.loads(html)
comments_data = html_dict["data"]["data"]
for comment in comments_data:
comments_info["id"].append(id)
comments_info["date"].append(comment["created_at"])
# 筛选出text中的文本信息
text = re.sub("
注意修改请求头信息,结果会存储两个excel文件,一个博文存储文件,一个评论存储文件。
写了一下午,欢迎交流,需要数据文件的可以私聊。



