python爬取网页上的表格_python爬取网页有乱码怎么解决?

文章目录

html网页

head

linkmeatscript及style body

divmain beautifulsoap

使用四大对象种类

TagNavigableStringBeautifulSoupComment 搜索文档树css选择器输出 csdn网页内容

具体处理

post命名头信息防重复
最近想爬csdn的博客，需要对html有所了解，这里记录一下。这里以博客的文章页面的html为参考。

html网页 head link

标签定义文档与外部资源的关系。
rel 属性规定当前文档与被链接文档之间的关系。
rel="canonical"属性值告诉搜索引擎当前网站中的重复或相似的网页中，哪一个页面才是站长想让其抓取与收录的。

meat

提供了 HTML 文档的元数据。元数据不会显示在客户端，但是会被浏览器解析。

script及style

head里面基本就是link还有meat,其他就还有js的