html网页
head
linkmeatscript及style body
divmain beautifulsoap
使用四大对象种类
TagNavigableStringBeautifulSoupComment 搜索文档树css选择器输出 csdn网页内容
具体处理
post命名头信息
防重复
最近想爬csdn的博客,需要对html有所了解,这里记录一下。这里以博客的文章页面的html为参考。
标签定义文档与外部资源的关系。
rel 属性规定当前文档与被链接文档之间的关系。
rel="canonical"属性值 告诉搜索引擎当前网站中的重复或相似的网页中,哪一个页面才是站长想让其抓取与收录的。
head里面基本就是link还有meat,其他就还有js的


