栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

Python爬虫学习(二:HTML基础1)

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Python爬虫学习(二:HTML基础1)

你将理解一个HTML网页的完整结构,并了解如何让搜索引擎更好的找到你的网页。

目录
    • 声明文档格式:DOCTYPE(doc type 方法标准)
    • 根元素:HTML 元素
    • 头元素:head 元素
    • 网页标题元素:title
    • 元信息元素:meta
    • 编码格式:charset
    • 描述:description
    • 关键词:keywords
    • 主体元素:body 元素
    • href 属性
      • 锚 URL 实例:创建网页内导航
      • 相对 URL 实例:跳转到同一网站的另一个网页
      • 发送电子邮件
    • target 属性:在何处打开链接
    • 分级标题
    • 段落与换行
    • 列表
      • 有序列表实例
      • 无序列表实例
      • 描述列表实例
    • 文本格式化
    • 引用
    • 日常消费账单表格展示网页
      • 最基本的表格
      • 带边框的表格
      • scope 属性

显示效果如下图所示:

相关知识
在前两关中,我们学习了基本的HTML网页相关概念和属性。你也已经动手写过最简单的HTML网页。

接下来,我们开始学习一个简单完整网页结构。它包含的主要元素,如下图所示:

我们来看如下示例:


<`HTML`>
  
    
    自我简介
    
    
  
  
    

自我简介

简介

在这里简单的描述一下你自己吧。

显示效果如图:

从显示效果来看,该网页似乎与我们之前所学网页没有什么不同。但这个网页更容易被搜索引擎发现。

下面,我们将结合代码为大家讲解该网页完整结构和为什么更容易被搜索引擎发现。

声明文档格式:DOCTYPE(doc type 方法标准)

首先,第一行:

声明了该文档是HTML 5的文档。

因为在Web世界里,有很多各式各样的文档类型,所以我们首先需要做的便是声明该文档是HTML,以便浏览器正确显示网页。

如果你想声明为HTML 4.01的文档可以这样写:


因为本实训以HTML 5作为标准,所以统一使用第一种方式。

提示:

  • 为什么与HTML4.01相比HTML 5声明中没有数字"5"呢? 因为W3C认为之前的文档声明太过复杂,正好借此机会移除版本号,这样声明就更加简化;
  • 在背景知识中,你能够了解更多HTML版本的历史信息。
根元素:HTML 元素

然后,元素告知浏览器其本身是一个HTML文档。

除去第一行外,其余的页面内容都应该包含在元素中,所以它也被称为根元素。

头元素:head 元素

与属性会给元素增添附加信息一样,head元素能为整个网页增添更多信息。可以用在head中的标签有, , ,

网页标题元素:title

本例网页主要内容是“自我简介”,所以title也设置为“自我简介”。
title元素的内容即网页标题,它是一个网页必需的元素之一。

的内容一般作为网页标签名,写法如下:
标题内容

title内容显示位置:

元信息元素:meta

meta元素提供元数据信息,主要包括:

  1. 页面编码;
  2. 网页标题;
  3. 网页描述;
  4. 网页关键词。

这些信息,一方面可用于告知浏览器如何展示页面,另一方面可以提供给搜索引擎检索。
因为搜索引擎会通过meta元素的name和content属性来检索页面,所以当我们加入了合适的关键字和描述内容时,页面就更容易被搜索引擎发现。

编码格式:charset

该行定义了浏览器解析网页文档时使用的编码方式。通常,我们使用utf-8编码以支持各国语言。

描述:description

描述信息使用一句话告知搜索引擎我们网页的主要内容是什么。

通常description的写法如下:


关键词:keywords

同理,关键词信息使用多个并行的关键词告知搜索引擎我们网页内容的关键词信息。

通常keywords的写法如下:


主体元素:body 元素 元素是一个文档的主体,文档内容都包含在元素中,最终呈现在网页上。

带超链接的网页
超链接是网页互连的核心,网页之间通过超链接连接在一起。

我们使用 标签定义超链接。

一个简单的例子如下:

百度搜索

点击a元素内容后打开百度搜索网页。

其中,href属性指定了超链接的目标,本例中即跳转到百度。

href 属性

href 属性是超链接最重要的属性,它用于指定超链接目标的 URL。

典型的超链接格式如下:

 

其中,目标URL有三种类型:

  1. 锚 URL (anchor URL):指向同一页面内某一位置;
  2. 相对 URL (relative URL):指向同一网站的不同文件;
  3. 绝对 URL (absolute URL):指向另一个网站。

提示:

  • URL:Uniform Resource Locator,统一资源定位器;
  • 为什么叫作锚URL呢?

锚的含义取于船上的锚,船把锚沉在水底后,如果船随水飘移了,只要一拉锚的锁链就会回到抛锚的位置。同样的,在html中点锚链接就能回到指定位置。

这三种链接实际效果是如何的呢?下面让我们通过三组实例来加深理解。

锚 URL 实例:创建网页内导航

    

HTML 入门

本页目录

简介

HTML(Hypertext Markup Language,超文本标记语言)是一种用于创建Web页面和Web应用的标准化标记语言。 在CSS(Cascading Style Sheets,级联样式表单)和Javascript的帮助下,HTML已经成功构建了一整套面向Web的开发与应用平台。

第1关

初识HTML:简单的Hello World网页

第2关

HTML链接:带超链接的网页


回到顶部

其中第5行:

简介

定义了一个指向#toc1目标的锚链接。所以,点击之后会定位到第10行:

简介

id属性值为toc1的位置。

所以,完整的一对页面内导航的写法为:

简介

<开始标签 id="id值内容">内容<结束标签>

此外,当href="#"时,默认回到网页顶部位置。

相对 URL 实例:跳转到同一网站的另一个网页

    

主页

网站导航:

在上述例子中,因为home.html、blog.html、project.html和about.html均在同一文件夹中;所以第6行:

博客

./blog.html链接到了同一文件夹中的blog.html页面。

我们说的相对URL是相对于什么呢?

是相对于当前网页home.html路径的URL。.代表当前路径,所以./blog.html代表当前路径下的blog.html网页。


    

你可以使用搜索引擎,例如 GoogleBaiduBing等,搜索网络信息。

绝对URL即指定了完整的网页路径。

发送电子邮件

我们还可以将href属性值设置为mailto:邮箱地址,这样做可以调起邮箱应用,发送邮件到对应地址。

发送邮件到:someone

target 属性:在何处打开链接

target属性规定了在何处打开超链接。

一个常用的例子如下:

baidu

其中,我们指定了 target="_blank",所以在点击之后,将在新标签中打开链接。

分级标题

HTML提供了六级标题用于创建网页信息的层级关系。 定义重要等级最高的标题,之后到层级依次递减。


    

书籍标题

第一章

第一节

重点 1

1.1 标题
1.1.1 标题
  • 注意请不要根据标题字体大小来选择级别,而应该根据内容。例如一本书的第一章是第二层级,但是有一部分人认为字体太大,从而选择作为层级标题,这样做是不正确的。
  • 段落与换行

    如大家在之前的例子中看到的,我们使用p元素定义段落。p元素是HTML中最常用的元素之一。
    例 1.

    超文本标记语言(HTML)是一种标准化的用来创建Web页面和Web应用的标准化的标记语言。在级联样式表单(CSS)和Javascript的帮助下,HTML已经成功构建了一整套面向Web的开发与应用平台。

    例 2.

    超文本标记语言(HTML)是一种标准化的用来创建Web页面和Web应用的标准化的标记语言。 在级联样式表单(CSS)和Javascript的帮助下,HTML已经成功构建了一整套面向Web的开发与应用平台

    例1和例2唯一的不同在于,例2中我们在段落内容中换行了。那么,在实际显示时,会显示换行吗?


    大家可以看到,虽然我们在段落内容中换行了,但是显示时是不会换行的。那么如果我们想要在一个段落中换行要怎么做呢?

    我们可以使用
    标签。

    举例如下:

    超文本标记语言(HTML)是一种标准化的用来创建Web页面和Web应用的标准化的标记语言。
    在级联样式表单(CSS)和Javascript的帮助下,HTML已经成功构建了一整套面向Web的开发与应用平台

    列表

    生活中我们经常使用列表,例如购物清单、待办事项。在HTML中,我们可以创建无序列表、有序列表和描述列表,而且一个列表中可以嵌套另一个列表。

    通常,列表都是由父元素和子元素构成的,父元素用于指定要创建的列表的类型,子元素用于指定要创建的列表项目类型。

    三种列表类型组成元素如下:

    类型父元素子元素
    有序列表olli
    无序列表ulli
    描述列表dldt, dd

    提示:

    • ol: order list;
    • ul: unorder list。

    有序列表实例

    如果列表顺序是不能随意交换时,我们使用有序列表。例如

    
        

    健身房基本锻炼步骤

    1. 热身
    2. 无氧运动(包括俯卧撑、仰卧起坐、器械锻炼等)
    3. 有氧运动(包括慢跑、单车、游泳、登山机等)
    4. 拉伸、放松

    无序列表实例

    如果列表顺序不重要时,我们使用无序列表。例如:

    
        

    购物清单

    • 酸奶
    • 苹果
    • 鸡胸肉
    • 白炽灯泡

    描述列表实例
    
        

    HTML里程碑

    1995年11月24日
    HTML2.0发布,对应的IETF文档为RFC 1866
    1997年1月14日
    HTML 3.2以W3C推荐标准的形式发布。 随后的HTML标准都由W3C组织发布。
    1997年12月18日
    HTML 4.0发布。
    2014年10月28日
    HTML5 发布。
    2016年11月1日
    HTML 5.1发布。

    文本格式化

    一个网页中通常包含了文本信息,对于不同的文本类型,我们可以选择合适的 HTML 语义化元素进行标记。例如,em 元素用于标记强调部分内容,small 元素用于注解、署名等类型的文本。

    常用的元素如下:

    元素作用
    strong表示内容的重要性-
    em表示内容的着重点-
    mark表示内容高亮显示对搜索结果页面或文章中的搜索词进行突出显示
    small表示细则一类的旁注通常包括免责声明、 注意事项、法律限制、版权信息等
    b希望读者注意的文字如文档摘要里的关键词、评论中的产品名、文章导语等
    i表示不同于其他文字的文字,具有不同的语态或语气如分类名称、技术术语、翻译的散文等
    sub定义下标常见的下标包括化学符号等
    sup定义上标常见的上标包括商标符号、指数和脚注编号等
    
        

    论语学而篇第一

    作者:孔子1

    本篇引语

    《学而》是《论语》第一篇的篇名。《论语》中各篇一般都是以第一章的前二三个字作为该篇的篇名。《学而》一篇包括16章,内容涉及诸多方面。其中重点是 「吾日三省吾身」;「节用而爱人,使民以时」;「礼之用,和为贵」以及仁、孝、信等道德范畴。

    原文

    子曰:「学而时习之,不亦说乎?有朋自远方来,不亦乐乎?人不知,而不愠,不亦君子乎?」

    效果:


    论语学而篇第一

    作者:孔子1>(

    本篇引语

    《学而》是《论语》第一篇的篇名。《论语》中各篇一般都是以第一章的前二三个字作为该篇的篇名。《学而》一篇包括16章,内容涉及诸多方面。其中重点是 「吾日三省吾身」;「节用而爱人,使民以时」;「礼之用,和为贵」以及仁、孝、信等道德范畴。

    原文

    子曰:「学而时习之,不亦说乎?有朋自远方来,不亦乐乎?人不知,而不愠,不亦君子乎?」


    引用

    HTML中也有用于标记引用内容的元素——q和blockquote元素:

    • q 元素用于短的引用,如句子里面的引用;

    • blockquote 元素表示单独存在的引用,它默认显示在新的一行。

    
        

    W3C

    W3C (World Wide Web) 万维网联盟创建于1994年。它是 Web技术领域最具权威和影响力的国际中立性技术标准机构

    其官方定义为:

    The World Wide Web Consortium (W3C) is an international community that develops open standards to ensure the long-term growth of the Web.

    效果:


    W3C

    W3C (World Wide Web) 万维网联盟创建于1994年。它是 Web技术领域最具权威和影响力的国际中立性技术标准机构

    其官方定义为:

    The World Wide Web Consortium (W3C) is an international community that develops open standards to ensure the long-term growth of the Web.

    日常消费账单表格展示网页


    在日常生活中财务报表、日历等,都常使用表格展示。通常,表格数据都由行和列组成。

    最基本的表格

    在HTML表中,一个表格(table)由行(tr)组成,每一行由单元格组成,单元格有标题单元格(th)和数据单元格(td)。

    一个最基本的表格如下:

    
        
    第一行第一个单元格数据 第一行第二个单元格数据
    第二行第一个单元格数据 第二行第二个单元格数据

    效果:


    12
    第一行第一个单元格数据第一行第二个单元格数据
    第二行第一个单元格数据第二行第二个单元格数据

    这是一个2行2列的表格,可以看到

    元素中包含了两行,即两个元素;每行有两列,即每个中包含两个元素标记表格第6行到第10行为头部; 元素包围了第15行到第32行的所有数据行;最后,元素标记表格的尾部。

    此例中,我们将列值的总和行作为表格的尾部。通常,我们都会建议大家使用这三种元素来定义表格,因为这样做表格的总体结构更为清晰。

    单元格跨越多行或多列的表格

    我们经常会看到这样的表格:

    其中的单元格,跨越了多行或者多列。在HTML中要如何实现呢?

    我们可以设定colspan 和 rowspan 属性让

    元素。

    提示:

    • tr: table row;

    • th: table head;

    • td: table data。

    带边框的表格

    在第一个例子中,表格没有边框,看起来不太明显。那么,如何设置带边框的表格呢?

    我们可以指定

    元素的border属性值。

    效果:


    12
    第一行第一个单元格数据第一行第二个单元格数据
    第二行第一个单元格数据第二行第二个单元格数据

    数字越大颜色越深

    但是,这样的边框样式不太好看,我们可以通过编写CSS修改边框样式。在之后的课程中将会学习。

    其他属性:

    1. 我们设定了

      元素的width属性,改变了表格的宽度;

    2. 我们使用

    3. 数据第一行

    4. 元素中,使用、和元素来定义表格。

      举例如下:

       
      元素设置了表格的标题;通讯录
      元素指定了表头。本例中有三列信息,所以包含了三个元素;

    5. 并且,我们设置了

    6. 元素的属性scope的值为col。

      scope 属性

      元素的scope属性用于定义表头数据与单元数据关联的方法。本例中值为col,表示规定的是列的表头。

      其他的一些值含义如下:

      含义
      col单元格是列的表头
      row规定单元格是行的表头
      colgroup单元格是列组的表头
      rowgroup单元格是行组的表头

      列组和行组的概念将在单元格跨越多行或多列的表格小节中讲述和使用。

      结构更清晰的表格

      为了使表格的整体结构更加的清晰,我们还能够使用

    7. 运动会跑步成绩
      长度李雯王谦周佳
      100米14s16s13s
      200米26s23s25s
      400米70s73s69s
      总用时110s112s107s

    显示效果如图:

    顾名思义,

    单元格跨越多行或多列。

    上述表格代码如下:

     
    1. 彩排安排
      时间周一周二周三
      上午8点开场舞歌曲串烧
      上午9点小品相声大型魔术
      上午10点杂艺表演乐队歌曲

    在此例中,表格头部第7行,scope="rowgroup"指定了该单元格是行组的表头。表格中,第3行的第3列和第4列为合并单元格,我们设置第18行colspan="2",表示该单元格跨越两列;同理,第24行设置rowspan="2"表示该单元格跨越两行。

    所以,

    要设置单元格跨越多行,只需设置属性rowspan="n"; 设置单元格跨越多列,只需设置属性colspan="n"。 n是单元格要跨越的行数或列数。

    转载请注明:文章转载自 www.mshxw.com
    我们一直用心在做
    关于我们 文章归档 网站地图 联系我们

    版权所有 (c)2021-2022 MSHXW.COM

    ICP备案号:晋ICP备2021003244-6号