期末总结(持续更新)

文章目录

python笔记
- Python的介绍
- Python开发环境搭建
- Python的交互界面
- 几个概念
- 基本语法
- 字面量和变量
- 变量和标识符
- - 数据类型
- 类型检查
- - 对象（object）
- 对象的结构
- 变量和对象
- 类型转换
- 运算符(操作符)
- 字符串
- 布尔值和空值
- 条件判断语句（if语句）
- input()函数
- if-else语句
- if-elif-else语句
- 循环语句
- break和continue
- 列表（list）
- 序列（sequence）
- 可变对象
- 字典（dict）
- 集合（set）
- 异常
- 处理异常
- 异常的传播（抛出异常）
- 抛出异常
- 文件（File）
- 打开文件
- 关闭文件
- 文件读取和写入
- 文件的其他操作
Hive总结
- hive简介
- hive使用方式

python笔记 Python的介绍

Python是解释型语言

Python（英国发音：/ˈpaɪθən/ 美国发音：/ˈpaɪθɑːn/），是一种广泛使用的高级编程语言，属于通用型编程语言，由吉多·范罗苏姆创造，第一版发布于1991年。可以视之为一种改良（加入一些其他编程语言的优点，如面向对象）的LISP。作为一种解释型语言，Python的设计哲学强调代码的可读性和简洁的语法（尤其是使用空格缩进划分代码块，而非使用大括号或者关键词）。相比于C++或Java，Python让开发者能够用更少的代码表达想法。不管是小型还是大型程序，该语言都试图让程序的结构清晰明了。 

Life is short you need Python （人生苦短，我用Python）    

Python的用途：
    WEB应用
        Facebook 豆瓣 。。。
    爬虫程序
    科学计算
    自动化运维
    大数据（数据清洗）
    云计算
    桌面软件/游戏
    人工智能
    。。。

Python开发环境搭建

开发环境搭建就是安装Python的解释器
Python的解释器分类：
    CPython（官方）
        用c语言编写的Python解释器
    PyPy
        用Python语言编写的Python解释器
    IronPython
        用.net编写的Python解释器
    Jython
        用Java编写的Python解释器

步骤：
    1.下载安装包 python-3.6.5.exe
        - 3.x
        - 2.x    
    2.安装（傻瓜式安装） 
    3.打开命令行窗口，输入python 出现如下内容
        Python 3.6.5 (v3.6.5:f59c0932b4, Mar 28 2018, 16:07:46) [MSC v.1900 32 bit (Intel)] on win32
        Type "help", "copyright", "credits" or "license" for more information.
        >>>

Python的交互界面

当我们通过命令行来输入Python，所进入到的界面就是Python的交互界面
结构：
    版本和版权声明：
    Python 3.6.5 (v3.6.5:f59c0932b4, Mar 28 2018, 16:07:46) [MSC v.1900 32 bit (Intel)] on win32
    Type "help", "copyright", "credits" or "license" for more information.

    命令提示符：
    >>>

    在命令提示符后可以直接输入Python的指令！输入完的指令将会被Python的解释器立即执行！

    安装Python的同时，会自动安装一个Python的开发工具IDLE，通过IDLE也可以进入到交互模式
    但是不同的是，在IDLE中可以通过TAB键来查看语句的提示。
    IDLE实际上就是一个交互界面，但是他可以有一些简单的提示，并且可以将代码保存

交互模式只能你输入一行代码，它就是执行一行，所以他并不适用于我们日常的开发！ 
    仅可以用来做一些日常的简单的测试！   

我们一般会将Python代码编写到一个py文件中，然后通过python指令来执行文件中的代码

几个概念

1.表达式
    表达式就是一个类似于数学公式的东西
    比如：10 + 5   8 - 4
    表达式一般仅仅用了计算一些结果，不会对程序产生实质性的影响
    如果在交互模式中输入一个表达式，解释器会自动将表达式的结果输出

2.语句
    在程序中语句一般需要完成某种功能，比如打印信息、获取信息、为变量赋值。。。
    比如：
        print()
        input()
        a = 10
    语句的执行一般会对程序产生一定的影响
    在交互模式中不一定会输出语句的执行结果  

3.程序（program）
    程序就是由一条一条的语句和一条一条的表达式构成的。

4.函数（function）
    函数就是一种语句，函数专门用来完成特定的功能
    函数长的形如：xxx()          
    函数的分类：
        内置函数
            - 由Python解释器提供的函数，可以在Python中直接使用
        自定义函数   
            - 由程序员自主的创建的函数
    当我们需要完成某个功能时，就可以去调用内置函数，或者自定义函数 
    函数的两个要素：
        参数
            - ()中的内容就是函数的参数
            - 函数中可以没有参数，也可以有多个参数，多个参数之间使用,隔开
        返回值        
            - 返回值是函数的返回结果，不是所有的函数都有返回值

基本语法

1.在Python中严格区分大小写
2.Python中的每一行就是一条语句，每条语句以换行结束
3.Python中每一行语句不要过长（规范中建议每行不要超过80个字符）
    "rulers":[80],
4.一条语句可以分多行编写，多行编写时语句后边以结尾  
5.Python是缩进严格的语言，所以在Python中不要随便写缩进  
6.在Python中使用#来表示注释，#后的内容都属于注释，注释的内容将会被解释器所忽略
    我们可以通过注释来对程序进行解释说明，一定要养成良好的编写注释的习惯
    注释要求简单明了，一般习惯上#后边会跟着一个空格

字面量和变量

字面量就是一个一个的值，比如：1，2，3，4，5，6，‘HELLO’
    字面量所表示的意思就是它的字面的值，在程序中可以直接使用字面量

变量（variable）变量可以用来保存字面量，并且变量中保存的字面量是不定的
    变量本身没有任何意思，它会根据不同的字面量表示不同的意思

一般我们在开发时，很少直接使用字面量，都是将字面量保存到变量中，通过变量来引用字面量

变量和标识符数据类型

数据类型指的就是变量的值得类型，也就是可以为变量赋哪些值 
数值
    整型
        布尔值
    浮点型
    复数
字符串
空值
在Python数值分成了三种：整数、浮点数（小数）、复数
 在Python中所有的整数都是int类型
 a = 10
 b = 20
Python中的整数的大小没有限制，可以是一个无限大的整数
 c = 999999999999999999999999999999999999999999999 ** 100
 如果数字的长度过大，可以使用下划线作为分隔符
 c = 123_456_789
 d = 0123 10进制的数字不能以0开头
其他进制的整数，只要是数字打印时一定是以十进制的形式显示的
二进制 0b开头
c = 0b10 # 二进制的10
八进制 0o开头
 c = 0o10
十六进制 0x开头
c = 0x10

也可以通过运算符来对数字进行运算，并且可以保证整数运算的精确
c = -100
c = c + 3

浮点数（小数），在Python中所有的小数都是float类型
c = 1.23
c = 4.56

对浮点数进行运算时，可能会得到一个不精确的结果
 c = 0.1 + 0.2 # 0.30000000000000004

print(c)

类型检查

 通过类型检查，可以检查只能值（变量）的类型

a = 123 # 数值
b = '123' # 字符串

 print('a =',a)
 print('b =',b)、
 type()用来检查值的类型
该函数会将检查的结果作为返回值返回，可以通过变量来接收函数的返回值
c = type('123')
c = type(a)
 print(type(b))
print(type(1)) # 
print(type(1.5)) # 
print(type(True)) # 
print(type('hello'))  # 
print(type(None)) #

对象（object）

- Python是一门面向对象的语言
- 一切皆对象！
- 程序运行当中，所有的数据都是存储到内存当中然后再运行的！
- 对象就是内存中专门用来存储指定数据的一块区域
- 对象实际上就是一个容器，专门用来存储数据

对象的结构

- 每个对象中都要保存三种数据
    - id（标识）
        > id用来标识对象的唯一性，每一个对象都有唯一的id
        > 对象的id就相当于人的身份证号一样
        > 可以通过id()函数来查看对象的id
        > id是由解析器生成的，在CPython中，id就是对象的内存地址
        > 对象一旦创建，则它的id永远不能再改变

    - type（类型）
        > 类型用来标识当前对象所属的类型
        > 比如：int str float bool 。。。
        > 类型决定了对象有哪些功能
        > 通过type()函数来查看对象的类型
        > Python是一门强类型的语言，对象一旦创建类型便不能修改


    - value（值）
        > 值就是对象中存储的具体的数据
        > 对于有些对象值是可以改变的
        > 对象分成两大类，可变对象 不可变对象
            可变对象的值可以改变
            不可变对象的值不能改变，之前学习的对象都是不可变对象

变量和对象

- 对象并没有直接存储到变量中，在Python中变量更像是给对象起了一个别名
- 变量中存储的不是对象的值，而是对象的id（内存地址），
    当我们使用变量时，实际上就是在通过对象id在查找对象
- 变量中保存的对象，只有在为变量重新赋值时才会改变
- 变量和变量之间是相互独立的，修改一个变量不会影响另一个变量

类型转换

- 所谓的类型转换，将一个类型的对象转换为其他对象
- 类型转换不是改变对象本身的类型，而是根据当前对象的值创建一个新对象

类型转换四个函数 int() float() str() bool()
int() 可以用来将其他的对象转换为整型
# 规则：
#   布尔值：True -> 1   False -> 0
#   浮点数：直接取整，省略小数点后的内容
#   字符串：合法的整数字符串，直接转换为对应的数字
#   如果不是一个合法的整数字符串，则报错 ValueError: invalid literal for int() with base 10: '11.5'
#   对于其他不可转换为整型的对象，直接抛出异常 ValueError
# float() 和 int()基本一致，不同的是它会将对象转换为浮点数
# str() 可以将对象转换为字符串
#  True -> 'True'
#  False -> 'False'
#  123 -> '123' 
#  。。。
#  bool() 可以将对象转换为布尔值，任何对象都可以转换为布尔值
#   规则：对于所有表示空性的对象都会转换为False，其余的转换为True
#  哪些表示的空性：0 、 None 、 '' 。。。

a = True

# 调用int()来将a转换为整型
# int()函数不会对原来的变量产生影响，他是对象转换为指定的类型并将其作为返回值返回
# 如果希望修改原来的变量，则需要对变量进行重新赋值
a = int(a)

a = False
a = int(a)

a = '123'
a = int(a)

a = 11.6
a = int(a)

a = '11.5'
# a = int(a)

a = None
# a = int(a)

a = 1
a = float(a)

a = False
a = float(a)

a = 123
a = str(a)

a = None
a = bool(a)

print('a =',a)
print('a的类型是',type(a))
# b = 456
# print('hello'+str(b))

运算符(操作符)

- 运算符可以对一个值或多个值进行运算或各种操作
- 比如 + 、-、= 都属于运算符
- 运算符的分类：
    1.算术运算符
    2.赋值运算符
    3.比较运算符（关系运算符）
    4.逻辑运算符
    5.条件运算符（三元运算符）

算术运算符
 + 加法运算符（如果是两个字符串之间进行加法运算，则会进行拼串操作）
 - 减法运算符
 * 乘法运算符（如果将字符串和数字相乘，则会对字符串进行复制操作，将字符串重复指定次数）
 / 除法运算符，运算时结果总会返回一个浮点类型
 // 整除，只会保留计算后的整数位，总会返回一个整型
 ** 幂运算，求一个值的几次幂
 % 取模，求两个数相除的余数

 赋值运算符
# = 可以将等号右侧的值赋值给等号左侧的变量
# +=  a += 5 相当于 a = a + 5 
# -=  a -= 5 相当于 a = a - 5 
# *=  a *= 5 相当于 a = a * 5 
# **= a **= 5 相当于 a = a ** 5 
# /=  a /= 5 相当于 a = a / 5 
# //= a //= 5 相当于 a = a // 5 
# %=  a %= 5 相当于 a = a % 5 

关系运算符
# 关系运算符用来比较两个值之间的关系，总会返回一个布尔值
# 如果关系成立，返回True，否则返回False
# > 比较左侧值是否大于右侧值
# >= 比较左侧的值是否大于或等于右侧的值
# < 比较左侧值是否小于右侧值
# <= 比较左侧的值是否小于或等于右侧的值
# == 比较两个对象的值是否相等
# != 比较两个对象的值是否不相等
#   相等和不等比较的是对象的值，而不是id
# is 比较两个对象是否是同一个对象，比较的是对象的id
# is not 比较两个对象是否不是同一个对象，比较的是对象的id

逻辑运算符
# 逻辑运算符主要用来做一些逻辑判断
# not 逻辑非
#   not可以对符号右侧的值进行非运算
#       对于布尔值，非运算会对其进行取反操作，True变False，False变True
#       对于非布尔值，非运算会先将其转换为布尔值，然后再取反
#       
# and 逻辑与
#   and可以对符号两侧的值进行与运算
#    只有在符号两侧的值都为True时，才会返回True，只要有一个False就返回False
#    与运算是找False的
#    Python中的与运算是短路的与，如果第一个值为False，则不再看第二个值
#   
# or 逻辑或
#   or 可以对符号两侧的值进行或运算
#    或运算两个值中只要有一个True，就会返回True
#    或运算是找True的
#    Python中的或运算是短路的或，如果第一个值为True，则不再看第二个值

条件运算符（三元运算符）
# 语法： 语句1 if 条件表达式 else 语句2
# 执行流程：
#   条件运算符在执行时，会先对条件表达式进行求值判断
#       如果判断结果为True，则执行语句1，并返回执行结果
#       如果判断结果为False，则执行语句2，并返回执行结果

Python中使用变量，不需要声明，直接为变量赋值即可
a = 10
不能使用没有进行过赋值的变量
如果使用没有赋值过的变量，会报错 NameError: name 'b' is not defined
 print(b)
Python是一个动态类型的语言，可以为变量赋任意类型的值，也可以任意修改变量的值
a = 'hello'
print(a)

 标识符
在Python中所有可以自主命名的内容都属于标识符
 比如：变量名、函数名、类名
 标识符必须遵循标识符的规范
 1.标识符中可以含有字母、数字、_，但是不能使用数字开头
  例子：a_1 _a1 _1a
  2.标识符不能是Python中的关键字和保留字
    也不建议使用Python中的函数名作为标识符,因为这样会导致函数被覆盖
 3.命名规范：
  在Python中注意遵循两种命名规范   下划线命名法   所有字母小写，单词之间使用_分割  max_length min_length hello_world xxx_yyy_zzz
 帕斯卡命名法（大驼峰命名法） 首字母大写，每个单词开头字母大写，其余字母小            MaxLength MinLength HelloWorld XxxYyyZzz        
如果使用不符合标准的标识符，将会报错 SyntaxError: invalid syntax

字符串

格式化字符串
a = 'hello'

字符串之间也可以进行加法运算
 如果将两个字符串进行相加，则会自动将两个字符串拼接为一个
a = 'abc' + 'haha' + '哈哈'
 a = 123 
 字符串只能不能和其他的类型进行加法运算，如果做了会出现异常 TypeError: must be str, not int
print("a = "+a) # 这种写法在Python中不常见
a = 123
 print('a =',a)

 在创建字符串时，可以在字符串中指定占位符
 %s 在字符串中表示任意字符
%f 浮点数占位符
%d 整数占位符
b = 'Hello %s'%'孙悟空'
b = 'hello %s 你好 %s'%('tom','孙悟空')
b = 'hello %3.5s'%'abcdefg' # %3.5s字符串的长度限制在3-5之间
b = 'hello %s'%123.456
b = 'hello %.2f'%123.456
b = 'hello %d'%123.95
b = '呵呵'

 print('a = %s'%a)

 格式化字符串，可以通过在字符串前添加一个f来创建一个格式化字符串
 在格式化字符串中可以直接嵌入变量
c = f'hello {a} {b}'

print(f'a = {a}')

 拼串
print('欢迎 '+name+' 光临！')
 多个参数
print('欢迎',name,'光临！')
 占位符
print('欢迎 %s 光临！'%name)
格式化字符串
print(f'欢迎 {name} 光临！')
 字符串的复制（将字符串和数字相乘）
a = 'abc'
* 在语言中表示乘法
如果将字符串和数字相乘，则解释器会将字符串重复指定的次数并返回
a = a * 20
print(a)

布尔值和空值

 布尔值（bool）
 布尔值主要用来做逻辑判断
 布尔值一共有两个 True 和 False
 True表示真 False表示假
a = True
a = False
 print('a =',a)

 布尔值实际上也属于整型，True就相当于1，False就相当于0
 print(1 + False)
 None（空值）
None专门用来表示不存在
b = None
print(b)

条件判断语句（if语句）

语法：if 条件表达式 : 
    代码块
 执行的流程：if语句在执行时，会先对条件表达式进行求值判断，
 如果为True，则执行if后的语句
    如果为False，则不执行
 默认情况下，if语句只会控制紧随其后的那条语句，如果希望if可以控制多条语句，
  则可以在if后跟着一个代码块
代码块
代码块中保存着一组代码，同一个代码块中的代码，要么都执行要么都不执行
 代码块就是一种为代码分组的机制
 如果要编写代码块，语句就不能紧随在:后边，而是要写在下一行
 代码块以缩进开始，直到代码恢复到之前的缩进级别时结束
缩进有两种方式，一种是使用tab键，一种是使用空格（四个）
  Python的官方文档中推荐我们使用空格来缩进
  Python代码中使用的缩进方式必须统一
 "translate_tabs_to_spaces": true,

input()函数

该函数用来获取用户的输入
input()调用后，程序会立即暂停，等待用户输入
用户输入完内容以后，点击回车程序才会继续向下执行
  用户输入完成以后，其所输入的的内容会以返回值得形式返回
    注意：input()的返回值是一个字符串
  input()函数中可以设置一个字符串作为参数，这个字符串将会作为提示文字显示
 a = input('请输入任意内容：')
print('用户输入的内容是:',a)
 input()也可以用于暂时阻止程序结束

if-else语句

if-else语句
# 语法： 
#   if 条件表达式 :
#       代码块
#   else :
#       代码块
# 执行流程：
#   if-else语句在执行时，先对if后的条件表达式进行求值判断
#       如果为True，则执行if后的代码块
#       如果为False，则执行else后的代码块

if-elif-else语句

if-elif-else语句
# 语法：
#   if 条件表达式 :
#       代码块
#   elif 条件表达式 :
#       代码块
#   elif 条件表达式 :
#       代码块
#   elif 条件表达式 :
#       代码块
#   else :
#       代码块
#       
执行流程：
#   if-elif-else语句在执行时，会自上向下依次对条件表达式进行求值判断，
#       如果表达式的结果为True，则执行当前代码块，然后语句结束
#       如果表达式的结果为False，则继续向下判断，直到找到True为止
#       如果所有的表达式都是False，则执行else后的代码块
#   if-elif-else中只会有一个代码块会执行

循环语句

循环语句
 循环语句可以使指定的代码块重复指定的次数
 循环语句分成两种，while循环 和 for循环
while循环
语法：
#   while 条件表达式 :
#       代码块
#   else :
#       代码块
执行流程：
#   while语句在执行时，会先对while后的条件表达式进行求值判断，
#       如果判断结果为True，则执行循环体（代码块），
#       循环体执行完毕，继续对条件表达式进行求值判断，以此类推，
#       直到判断结果为False，则循环终止，如果循环有对应的else，则执行else后的代码块

条件表达式恒为True的循环语句，称为死循环，它会一直运行，慎用！
# while True :
#     print('hello')

循环的三个要件（表达式）
# 初始化表达式，通过初始化表达式初始化一个变量
# i = 0

 条件表达式，条件表达式用来设置循环执行的条件
# while i < 10 :
#     print(i)
更新表达式，修改初始化变量的值
#     i += 1

break和continue

break
break可以用来立即退出循环语句（包括else）
continue
continue可以用来跳过当次循环
break和continue都是只对离他最近的循环起作用
pass
pass是用来在判断或循环语句中占位的

列表（list）

- 列表是Python中的一个对象
- 对象（object）就是内存中专门用来存储数据的一块区域
- 之前我们学习的对象，像数值，它只能保存一个单一的数据
- 列表中可以保存多个有序的数据
- 列表是用来存储对象的对象
- 列表的使用：
    1.列表的创建
    2.操作列表中的数据

序列（sequence）

- 序列是Python中最基本的一种数据结构
- 数据结构指计算机中数据存储的方式
- 序列用于保存一组有序的数据，所有的数据在序列当中都有一个唯一的位置（索引）
    并且序列中的数据会按照添加的顺序来分配索引
- 序列的分类：
    可变序列（序列中的元素可以改变）：
        > 列表（list）
    不可变序列（序列中的元素不能改变）：
        > 字符串（str）    
        > 元组（tuple）

可变对象

- 每个对象中都保存了三个数据：
    id（标识）
    type（类型）
    value（值）    

- 列表就是一个可变对象
    a = [1,2,3]

- a[0] = 10 （改对象）
    - 这个操作是在通过变量去修改对象的值
    - 这种操作不会改变变量所指向的对象    
    - 当我们去修改对象时，如果有其他变量也指向了该对象，则修改也会在其他的变量中体现

- a = [4,5,6] （改变量）
    - 这个操作是在给变量重新赋值
    - 这种操作会改变变量所指向的对象
    - 为一个变量重新赋值时，不会影响其他的变量

- 一般只有在为变量赋值时才是修改变量，其余的都是修改对象

字典（dict）

- 字典属于一种新的数据结构，称为映射（mapping）
- 字典的作用和列表类似，都是用来存储对象的容器
- 列表存储数据的性能很好，但是查询数据的性能的很差
- 在字典中每一个元素都有一个唯一的名字，通过这个唯一的名字可以快速的查找到指定的元素
- 在查询元素时，字典的效率是非常快的
- 在字典中可以保存多个对象，每个对象都会有一个唯一的名字
    这个唯一的名字，我们称其为键（key），通过key可以快速的查询value
    这个对象，我们称其为值（value）
    所以字典，我们也称为叫做键值对（key-value）结构
    每个字典中都可以有多个键值对，而每一个键值对我们称其为一项（item）

集合（set）

- 集合和列表非常相似
- 不同点：
    1.集合中只能存储不可变对象
    2.集合中存储的对象是无序（不是按照元素的插入顺序保存）
    3.集合中不能出现重复的元素

异常

程序在运行过程当中，不可避免的会出现一些错误，比如：
    使用了没有赋值过的变量
    使用了不存在的索引
    除0
    ...
这些错误在程序中，我们称其为异常。
程序运行过程中，一旦出现异常将会导致程序立即终止，异常以后的代码全部都不会执行！

处理异常

程序运行时出现异常，目的并不是让我们的程序直接终止！
Python是希望在出现异常时，我们可以编写代码来对异常进行处理！    

try语句
    try:
        代码块（可能出现错误的语句）
    except 异常类型 as 异常名:
        代码块（出现错误以后的处理方式）
    except 异常类型 as 异常名:
        代码块（出现错误以后的处理方式）
    except 异常类型 as 异常名:
        代码块（出现错误以后的处理方式）
    else：
        代码块（没出错时要执行的语句）    
    finally:
        代码块（该代码块总会执行）    

    try是必须的 else语句有没有都行
    except和finally至少有一个    

可以将可能出错的代码放入到try语句，这样如果代码没有错误，则会正常执行，
    如果出现错误，则会执行expect子句中的代码，这样我们就可以通过代码来处理异常
    避免因为一个异常导致整个程序的终止

异常的传播（抛出异常）

当在函数中出现异常时，如果在函数中对异常进行了处理，则异常不会再继续传播,
    如果函数中没有对异常进行处理，则异常会继续向函数调用处传播,
    如果函数调用处处理了异常，则不再传播，如果没有处理则继续向调用处传播
    直到传递到全局作用域（主模块）如果依然没有处理，则程序终止，并且显示异常信息

当程序运行过程中出现异常以后，所有的异常信息会被保存一个专门的异常对象中，
    而异常传播时，实际上就是异常对象抛给了调用处
    比如 ： ZeroDivisionError类的对象专门用来表示除0的异常
            NameError类的对象专门用来处理变量错误的异常
            ....

在Python为我们提供了多个异常对象

抛出异常

- 可以使用 raise 语句来抛出异常，
    raise语句后需要跟一个异常类 或 异常的实例

文件（File）

- 通过Python程序来对计算机中的各种文件进行增删改查的操作
- I/O(Input / Output)
- 操作文件的步骤：
    ① 打开文件
    ② 对文件进行各种操作（读、写），然后保存
    ③ 关闭文件

打开文件

open(file, mode='r', buffering=-1, encoding_=None, errors=None, newline=None, closefd=True, opener=None)
# 使用open函数来打开一个文件
# 参数：
#   file 要打开的文件的名字（路径）
# 返回值：
#   返回一个对象，这个对象就代表了当前打开的文件

# 创建一个变量，来保存文件的名字
# 如果目标文件和当前文件在同一级目录下，则直接使用文件名即可
file_name = 'demo.txt'

# 在windows系统使用路径时，可以使用/来代替 
# 或者可以使用 \ 来代替 
# 或者也可以使用原始字符串
file_name = 'hello\demo.txt'
file_name = r'hellodemo.txt'

# 表示路径，可以使用..来返回一级目录
file_name = '../hello/demo.txt'

# 如果目标文件距离当前文件比较远，此时可以使用绝对路径
# 绝对路径应该从磁盘的根目录开始书写
file_name = r'C:UserslilichaoDesktophello.txt'

# file_obj = open(file_name) # 打开 file_name 对应的文件

# print(file_obj)

关闭文件

打开文件
file_name = 'demo.txt'

调用open()来打开文件
# file_obj = open(file_name)

 当我们获取了文件对象以后，所有的对文件的操作都应该通过对象来进行
读取文件中的内容
read()方法，用来读取文件中的内容，它会将内容全部保存为一个字符串返回
# content = file_obj.read()

# print(content)

关闭文件
调用close()方法来关闭文件
# file_obj.close()

with ... as 语句
# with open(file_name) as file_obj :
#     # 在with语句中可以直接使用file_obj来做文件操作
#     # 此时这个文件只能在with中使用，一旦with结束则文件会自动close()
#     print(file_obj.read())

文件读取和写入

readline()
    该方法可以用来读取一行内容
    # print(file_obj.readline(),end='')
    # print(file_obj.readline())
    # print(file_obj.readline())

    readlines()
   该方法用于一行一行的读取内容，它会一次性将读取到的内容封装到一个列表中返回
    # r = file_obj.readlines()
    # pprint.pprint(r[0])
    # pprint.pprint(r[1])
    # pprint.pprint(r[2])
    
使用open()打开文件时必须要指定打开文件所要做的操作（读、写、追加）
# 如果不指定操作类型，则默认是 读取文件 ， 而读取文件时是不能向文件中写入的
# r 表示只读的
# w 表示是可写的，使用w来写入文件时，如果文件不存在会创建文件，如果文件存在则会截断文件
#   截断文件指删除原来文件中的所有内容
# a 表示追加内容，如果文件不存在会创建文件，如果文件存在则会向文件中追加内容
# x 用来新建文件，如果文件不存在则创建，存在则报错
# + 为操作符增加功能
#   r+ 即可读又可写，文件不存在会报错
#   w+
#   a+
# with open(file_name , 'w' , encoding='utf-8') as file_obj:
# with open(file_name , 'r+' , encoding='utf-8') as file_obj:

write()来向文件中写入内容
    # 如果操作的是一个文本文件的话，则write()需要传递一个字符串作为参数
    # 该方法会可以分多次向文件中写入内容
    # 写入完成以后，该方法会返回写入的字符的个数

文件的其他操作

import os
from pprint import pprint

# os.listdir() 获取指定目录的目录结构
# 需要一个路径作为参数，会获取到该路径下的目录结构，默认路径为 . 当前目录
# 该方法会返回一个列表，目录中的每一个文件（夹）的名字都是列表中的一个元素
r = os.listdir()

# os.getcwd() 获取当前所在的目录
r = os.getcwd()

# os.chdir() 切换当前所在的目录 作用相当于 cd
# os.chdir('c:/')

# r = os.getcwd()

# 创建目录
# os.mkdir("aaa") # 在当前目录下创建一个名字为 aaa 的目录

# 删除目录
# os.rmdir('abc')

# open('aa.txt','w')
# 删除文件
# os.remove('aa.txt')

os.rename('旧名字','新名字') 可以对一个文件进行重命名，也可以用来移动一个文件
# os.rename('aa.txt','bb.txt')
os.rename('bb.txt','c:/users/lilichao/deskt

Hive总结 hive简介

Hive是基于Hadoop的一个数据仓库工具(离线)，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。
hive数据分析系统（数据仓库，像一个仓库一样，存放着很多数据，而且可以做各种查询、统计和分析，将结果放入新生的表中）
为什么要使用Hive
　　　　1.操作接口采用类SQL语法，提供快速开发的能力。

　　　　2.避免了去写MapReduce，减少开发人员的学习成本。

　　　　3.功能扩展很方便。
Hive的特点
1.可扩展
　　　Hive可以自由的扩展集群的规模，一般情况下不需要重启服务。
2.延展性
　　Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数。
3.容错性
　　良好的容错性，节点出现问题SQL仍可完成执行。
hive的基本架构
Jobtracker是hadoop1.x中的组件，它的功能相当于：
Resourcemanager+MRAppMaster

TaskTracker 相当于： 
Nodemanager  +  yarnchild

hive 2.0 以后的版本，底层的运算引擎已经不是mr了，而是spark

hive使用方式

1、直接在交互界面输入sql进行交互。

2、sql里可以直接使用java类型。

3、hive中建立数据库后，会在hdfs中出现对象的库名.db的文件夹

4、建表的目的是为了和数据文件进行映射；建立表之后（默认建立在default库中），hive会在hdfs上建立对应的文件夹，文件夹的名字就是表名称；

　　4.1、只要hdfs文件夹中有了数据即文件，对应的表中就会有了记录

　　4.2、hdfs文件中的数据是按照分隔符进行切分的（value.toString().split("分割符")）（默认分隔符01:ctrlA--不可见，cat命令下看不见）；表的定义是保存在mysql中的。
　　```

期末总结(持续更新)

大数据系统相关栏目本月热门文章