- python笔记
- Python的介绍
- Python开发环境搭建
- Python的交互界面
- 几个概念
- 基本语法
- 字面量和变量
- 变量和标识符
- 数据类型
- 类型检查
- 对象(object)
- 对象的结构
- 变量和对象
- 类型转换
- 运算符(操作符)
- 字符串
- 布尔值和空值
- 条件判断语句(if语句)
- input()函数
- if-else语句
- if-elif-else语句
- 循环语句
- break和continue
- 列表(list)
- 序列(sequence)
- 可变对象
- 字典(dict)
- 集合(set)
- 异常
- 处理异常
- 异常的传播(抛出异常)
- 抛出异常
- 文件(File)
- 打开文件
- 关闭文件
- 文件读取和写入
- 文件的其他操作
- Hive总结
- hive简介
- hive使用方式
python笔记 Python的介绍
Python是解释型语言
Python(英国发音:/ˈpaɪθən/ 美国发音:/ˈpaɪθɑːn/),是一种广泛使用的高级编程语言,属于通用型编程语言,由吉多·范罗苏姆创造,第一版发布于1991年。可以视之为一种改良(加入一些其他编程语言的优点,如面向对象)的LISP。作为一种解释型语言,Python的设计哲学强调代码的可读性和简洁的语法(尤其是使用空格缩进划分代码块,而非使用大括号或者关键词)。相比于C++或Java,Python让开发者能够用更少的代码表达想法。不管是小型还是大型程序,该语言都试图让程序的结构清晰明了。
Life is short you need Python (人生苦短,我用Python)
Python的用途:
WEB应用
Facebook 豆瓣 。。。
爬虫程序
科学计算
自动化运维
大数据(数据清洗)
云计算
桌面软件/游戏
人工智能
。。。
Python开发环境搭建
开发环境搭建就是安装Python的解释器
Python的解释器分类:
CPython(官方)
用c语言编写的Python解释器
PyPy
用Python语言编写的Python解释器
IronPython
用.net编写的Python解释器
Jython
用Java编写的Python解释器
步骤:
1.下载安装包 python-3.6.5.exe
- 3.x
- 2.x
2.安装(傻瓜式安装)
3.打开命令行窗口,输入python 出现如下内容
Python 3.6.5 (v3.6.5:f59c0932b4, Mar 28 2018, 16:07:46) [MSC v.1900 32 bit (Intel)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>>
Python的交互界面
当我们通过命令行来输入Python,所进入到的界面就是Python的交互界面
结构:
版本和版权声明:
Python 3.6.5 (v3.6.5:f59c0932b4, Mar 28 2018, 16:07:46) [MSC v.1900 32 bit (Intel)] on win32
Type "help", "copyright", "credits" or "license" for more information.
命令提示符:
>>>
在命令提示符后可以直接输入Python的指令!输入完的指令将会被Python的解释器立即执行!
安装Python的同时,会自动安装一个Python的开发工具IDLE,通过IDLE也可以进入到交互模式
但是不同的是,在IDLE中可以通过TAB键来查看语句的提示。
IDLE实际上就是一个交互界面,但是他可以有一些简单的提示,并且可以将代码保存
交互模式只能你输入一行代码,它就是执行一行,所以他并不适用于我们日常的开发!
仅可以用来做一些日常的简单的测试!
我们一般会将Python代码编写到一个py文件中,然后通过python指令来执行文件中的代码
几个概念
1.表达式
表达式就是一个类似于数学公式的东西
比如:10 + 5 8 - 4
表达式一般仅仅用了计算一些结果,不会对程序产生实质性的影响
如果在交互模式中输入一个表达式,解释器会自动将表达式的结果输出
2.语句
在程序中语句一般需要完成某种功能,比如打印信息、获取信息、为变量赋值。。。
比如:
print()
input()
a = 10
语句的执行一般会对程序产生一定的影响
在交互模式中不一定会输出语句的执行结果
3.程序(program)
程序就是由一条一条的语句和一条一条的表达式构成的。
4.函数(function)
函数就是一种语句,函数专门用来完成特定的功能
函数长的形如:xxx()
函数的分类:
内置函数
- 由Python解释器提供的函数,可以在Python中直接使用
自定义函数
- 由程序员自主的创建的函数
当我们需要完成某个功能时,就可以去调用内置函数,或者自定义函数
函数的两个要素:
参数
- ()中的内容就是函数的参数
- 函数中可以没有参数,也可以有多个参数,多个参数之间使用,隔开
返回值
- 返回值是函数的返回结果,不是所有的函数都有返回值
基本语法
1.在Python中严格区分大小写
2.Python中的每一行就是一条语句,每条语句以换行结束
3.Python中每一行语句不要过长(规范中建议每行不要超过80个字符)
"rulers":[80],
4.一条语句可以分多行编写,多行编写时语句后边以结尾
5.Python是缩进严格的语言,所以在Python中不要随便写缩进
6.在Python中使用#来表示注释,#后的内容都属于注释,注释的内容将会被解释器所忽略
我们可以通过注释来对程序进行解释说明,一定要养成良好的编写注释的习惯
注释要求简单明了,一般习惯上#后边会跟着一个空格
字面量和变量
字面量就是一个一个的值,比如:1,2,3,4,5,6,‘HELLO’
字面量所表示的意思就是它的字面的值,在程序中可以直接使用字面量
变量(variable)变量可以用来保存字面量,并且变量中保存的字面量是不定的
变量本身没有任何意思,它会根据不同的字面量表示不同的意思
一般我们在开发时,很少直接使用字面量,都是将字面量保存到变量中,通过变量来引用字面量
变量和标识符
数据类型
数据类型指的就是变量的值得类型,也就是可以为变量赋哪些值
数值
整型
布尔值
浮点型
复数
字符串
空值
在Python数值分成了三种:整数、浮点数(小数)、复数
在Python中所有的整数都是int类型
a = 10
b = 20
Python中的整数的大小没有限制,可以是一个无限大的整数
c = 999999999999999999999999999999999999999999999 ** 100
如果数字的长度过大,可以使用下划线作为分隔符
c = 123_456_789
d = 0123 10进制的数字不能以0开头
其他进制的整数,只要是数字打印时一定是以十进制的形式显示的
二进制 0b开头
c = 0b10 # 二进制的10
八进制 0o开头
c = 0o10
十六进制 0x开头
c = 0x10
也可以通过运算符来对数字进行运算,并且可以保证整数运算的精确
c = -100
c = c + 3
浮点数(小数),在Python中所有的小数都是float类型
c = 1.23
c = 4.56
对浮点数进行运算时,可能会得到一个不精确的结果
c = 0.1 + 0.2 # 0.30000000000000004
print(c)
类型检查
通过类型检查,可以检查只能值(变量)的类型
a = 123 # 数值
b = '123' # 字符串
print('a =',a)
print('b =',b)、
type()用来检查值的类型
该函数会将检查的结果作为返回值返回,可以通过变量来接收函数的返回值
c = type('123')
c = type(a)
print(type(b))
print(type(1)) #
print(type(1.5)) #
print(type(True)) #
print(type('hello')) #
print(type(None)) #
对象(object)
- Python是一门面向对象的语言 - 一切皆对象! - 程序运行当中,所有的数据都是存储到内存当中然后再运行的! - 对象就是内存中专门用来存储指定数据的一块区域 - 对象实际上就是一个容器,专门用来存储数据对象的结构
- 每个对象中都要保存三种数据
- id(标识)
> id用来标识对象的唯一性,每一个对象都有唯一的id
> 对象的id就相当于人的身份证号一样
> 可以通过id()函数来查看对象的id
> id是由解析器生成的,在CPython中,id就是对象的内存地址
> 对象一旦创建,则它的id永远不能再改变
- type(类型)
> 类型用来标识当前对象所属的类型
> 比如:int str float bool 。。。
> 类型决定了对象有哪些功能
> 通过type()函数来查看对象的类型
> Python是一门强类型的语言,对象一旦创建类型便不能修改
- value(值)
> 值就是对象中存储的具体的数据
> 对于有些对象值是可以改变的
> 对象分成两大类,可变对象 不可变对象
可变对象的值可以改变
不可变对象的值不能改变,之前学习的对象都是不可变对象
变量和对象
- 对象并没有直接存储到变量中,在Python中变量更像是给对象起了一个别名
- 变量中存储的不是对象的值,而是对象的id(内存地址),
当我们使用变量时,实际上就是在通过对象id在查找对象
- 变量中保存的对象,只有在为变量重新赋值时才会改变
- 变量和变量之间是相互独立的,修改一个变量不会影响另一个变量
类型转换
- 所谓的类型转换,将一个类型的对象转换为其他对象 - 类型转换不是改变对象本身的类型,而是根据当前对象的值创建一个新对象
类型转换四个函数 int() float() str() bool()
int() 可以用来将其他的对象转换为整型
# 规则:
# 布尔值:True -> 1 False -> 0
# 浮点数:直接取整,省略小数点后的内容
# 字符串:合法的整数字符串,直接转换为对应的数字
# 如果不是一个合法的整数字符串,则报错 ValueError: invalid literal for int() with base 10: '11.5'
# 对于其他不可转换为整型的对象,直接抛出异常 ValueError
# float() 和 int()基本一致,不同的是它会将对象转换为浮点数
# str() 可以将对象转换为字符串
# True -> 'True'
# False -> 'False'
# 123 -> '123'
# 。。。
# bool() 可以将对象转换为布尔值,任何对象都可以转换为布尔值
# 规则:对于所有表示空性的对象都会转换为False,其余的转换为True
# 哪些表示的空性:0 、 None 、 '' 。。。
a = True
# 调用int()来将a转换为整型
# int()函数不会对原来的变量产生影响,他是对象转换为指定的类型并将其作为返回值返回
# 如果希望修改原来的变量,则需要对变量进行重新赋值
a = int(a)
a = False
a = int(a)
a = '123'
a = int(a)
a = 11.6
a = int(a)
a = '11.5'
# a = int(a)
a = None
# a = int(a)
a = 1
a = float(a)
a = False
a = float(a)
a = 123
a = str(a)
a = None
a = bool(a)
print('a =',a)
print('a的类型是',type(a))
# b = 456
# print('hello'+str(b))
运算符(操作符)
- 运算符可以对一个值或多个值进行运算或各种操作
- 比如 + 、-、= 都属于运算符
- 运算符的分类:
1.算术运算符
2.赋值运算符
3.比较运算符(关系运算符)
4.逻辑运算符
5.条件运算符(三元运算符)
算术运算符 + 加法运算符(如果是两个字符串之间进行加法运算,则会进行拼串操作) - 减法运算符 * 乘法运算符(如果将字符串和数字相乘,则会对字符串进行复制操作,将字符串重复指定次数) / 除法运算符,运算时结果总会返回一个浮点类型 // 整除,只会保留计算后的整数位,总会返回一个整型 ** 幂运算,求一个值的几次幂 % 取模,求两个数相除的余数 赋值运算符 # = 可以将等号右侧的值赋值给等号左侧的变量 # += a += 5 相当于 a = a + 5 # -= a -= 5 相当于 a = a - 5 # *= a *= 5 相当于 a = a * 5 # **= a **= 5 相当于 a = a ** 5 # /= a /= 5 相当于 a = a / 5 # //= a //= 5 相当于 a = a // 5 # %= a %= 5 相当于 a = a % 5 关系运算符 # 关系运算符用来比较两个值之间的关系,总会返回一个布尔值 # 如果关系成立,返回True,否则返回False # > 比较左侧值是否大于右侧值 # >= 比较左侧的值是否大于或等于右侧的值 # < 比较左侧值是否小于右侧值 # <= 比较左侧的值是否小于或等于右侧的值 # == 比较两个对象的值是否相等 # != 比较两个对象的值是否不相等 # 相等和不等比较的是对象的值,而不是id # is 比较两个对象是否是同一个对象,比较的是对象的id # is not 比较两个对象是否不是同一个对象,比较的是对象的id 逻辑运算符 # 逻辑运算符主要用来做一些逻辑判断 # not 逻辑非 # not可以对符号右侧的值进行非运算 # 对于布尔值,非运算会对其进行取反操作,True变False,False变True # 对于非布尔值,非运算会先将其转换为布尔值,然后再取反 # # and 逻辑与 # and可以对符号两侧的值进行与运算 # 只有在符号两侧的值都为True时,才会返回True,只要有一个False就返回False # 与运算是找False的 # Python中的与运算是短路的与,如果第一个值为False,则不再看第二个值 # # or 逻辑或 # or 可以对符号两侧的值进行或运算 # 或运算两个值中只要有一个True,就会返回True # 或运算是找True的 # Python中的或运算是短路的或,如果第一个值为True,则不再看第二个值 条件运算符(三元运算符) # 语法: 语句1 if 条件表达式 else 语句2 # 执行流程: # 条件运算符在执行时,会先对条件表达式进行求值判断 # 如果判断结果为True,则执行语句1,并返回执行结果 # 如果判断结果为False,则执行语句2,并返回执行结果
Python中使用变量,不需要声明,直接为变量赋值即可
a = 10
不能使用没有进行过赋值的变量
如果使用没有赋值过的变量,会报错 NameError: name 'b' is not defined
print(b)
Python是一个动态类型的语言,可以为变量赋任意类型的值,也可以任意修改变量的值
a = 'hello'
print(a)
标识符
在Python中所有可以自主命名的内容都属于标识符
比如:变量名、函数名、类名
标识符必须遵循标识符的规范
1.标识符中可以含有字母、数字、_,但是不能使用数字开头
例子:a_1 _a1 _1a
2.标识符不能是Python中的关键字和保留字
也不建议使用Python中的函数名作为标识符,因为这样会导致函数被覆盖
3.命名规范:
在Python中注意遵循两种命名规范 下划线命名法 所有字母小写,单词之间使用_分割 max_length min_length hello_world xxx_yyy_zzz
帕斯卡命名法(大驼峰命名法) 首字母大写,每个单词开头字母大写,其余字母小 MaxLength MinLength HelloWorld XxxYyyZzz
如果使用不符合标准的标识符,将会报错 SyntaxError: invalid syntax
字符串
格式化字符串
a = 'hello'
字符串之间也可以进行加法运算
如果将两个字符串进行相加,则会自动将两个字符串拼接为一个
a = 'abc' + 'haha' + '哈哈'
a = 123
字符串只能不能和其他的类型进行加法运算,如果做了会出现异常 TypeError: must be str, not int
print("a = "+a) # 这种写法在Python中不常见
a = 123
print('a =',a)
在创建字符串时,可以在字符串中指定占位符
%s 在字符串中表示任意字符
%f 浮点数占位符
%d 整数占位符
b = 'Hello %s'%'孙悟空'
b = 'hello %s 你好 %s'%('tom','孙悟空')
b = 'hello %3.5s'%'abcdefg' # %3.5s字符串的长度限制在3-5之间
b = 'hello %s'%123.456
b = 'hello %.2f'%123.456
b = 'hello %d'%123.95
b = '呵呵'
print('a = %s'%a)
格式化字符串,可以通过在字符串前添加一个f来创建一个格式化字符串
在格式化字符串中可以直接嵌入变量
c = f'hello {a} {b}'
print(f'a = {a}')
拼串
print('欢迎 '+name+' 光临!')
多个参数
print('欢迎',name,'光临!')
占位符
print('欢迎 %s 光临!'%name)
格式化字符串
print(f'欢迎 {name} 光临!')
字符串的复制(将字符串和数字相乘)
a = 'abc'
* 在语言中表示乘法
如果将字符串和数字相乘,则解释器会将字符串重复指定的次数并返回
a = a * 20
print(a)
布尔值和空值
布尔值(bool)
布尔值主要用来做逻辑判断
布尔值一共有两个 True 和 False
True表示真 False表示假
a = True
a = False
print('a =',a)
布尔值实际上也属于整型,True就相当于1,False就相当于0
print(1 + False)
None(空值)
None专门用来表示不存在
b = None
print(b)
条件判断语句(if语句)
语法:if 条件表达式 :
代码块
执行的流程:if语句在执行时,会先对条件表达式进行求值判断,
如果为True,则执行if后的语句
如果为False,则不执行
默认情况下,if语句只会控制紧随其后的那条语句,如果希望if可以控制多条语句,
则可以在if后跟着一个代码块
代码块
代码块中保存着一组代码,同一个代码块中的代码,要么都执行要么都不执行
代码块就是一种为代码分组的机制
如果要编写代码块,语句就不能紧随在:后边,而是要写在下一行
代码块以缩进开始,直到代码恢复到之前的缩进级别时结束
缩进有两种方式,一种是使用tab键,一种是使用空格(四个)
Python的官方文档中推荐我们使用空格来缩进
Python代码中使用的缩进方式必须统一
"translate_tabs_to_spaces": true,
input()函数
该函数用来获取用户的输入
input()调用后,程序会立即暂停,等待用户输入
用户输入完内容以后,点击回车程序才会继续向下执行
用户输入完成以后,其所输入的的内容会以返回值得形式返回
注意:input()的返回值是一个字符串
input()函数中可以设置一个字符串作为参数,这个字符串将会作为提示文字显示
a = input('请输入任意内容:')
print('用户输入的内容是:',a)
input()也可以用于暂时阻止程序结束
if-else语句
if-else语句 # 语法: # if 条件表达式 : # 代码块 # else : # 代码块 # 执行流程: # if-else语句在执行时,先对if后的条件表达式进行求值判断 # 如果为True,则执行if后的代码块 # 如果为False,则执行else后的代码块if-elif-else语句
if-elif-else语句 # 语法: # if 条件表达式 : # 代码块 # elif 条件表达式 : # 代码块 # elif 条件表达式 : # 代码块 # elif 条件表达式 : # 代码块 # else : # 代码块 # 执行流程: # if-elif-else语句在执行时,会自上向下依次对条件表达式进行求值判断, # 如果表达式的结果为True,则执行当前代码块,然后语句结束 # 如果表达式的结果为False,则继续向下判断,直到找到True为止 # 如果所有的表达式都是False,则执行else后的代码块 # if-elif-else中只会有一个代码块会执行循环语句
循环语句
循环语句可以使指定的代码块重复指定的次数
循环语句分成两种,while循环 和 for循环
while循环
语法:
# while 条件表达式 :
# 代码块
# else :
# 代码块
执行流程:
# while语句在执行时,会先对while后的条件表达式进行求值判断,
# 如果判断结果为True,则执行循环体(代码块),
# 循环体执行完毕,继续对条件表达式进行求值判断,以此类推,
# 直到判断结果为False,则循环终止,如果循环有对应的else,则执行else后的代码块
条件表达式恒为True的循环语句,称为死循环,它会一直运行,慎用!
# while True :
# print('hello')
循环的三个要件(表达式)
# 初始化表达式,通过初始化表达式初始化一个变量
# i = 0
条件表达式,条件表达式用来设置循环执行的条件
# while i < 10 :
# print(i)
更新表达式,修改初始化变量的值
# i += 1
break和continue
列表(list)break
break可以用来立即退出循环语句(包括else)
continue
continue可以用来跳过当次循环
break和continue都是只对离他最近的循环起作用
pass
pass是用来在判断或循环语句中占位的
- 列表是Python中的一个对象
- 对象(object)就是内存中专门用来存储数据的一块区域
- 之前我们学习的对象,像数值,它只能保存一个单一的数据
- 列表中可以保存多个有序的数据
- 列表是用来存储对象的对象
- 列表的使用:
1.列表的创建
2.操作列表中的数据
序列(sequence)
- 序列是Python中最基本的一种数据结构
- 数据结构指计算机中数据存储的方式
- 序列用于保存一组有序的数据,所有的数据在序列当中都有一个唯一的位置(索引)
并且序列中的数据会按照添加的顺序来分配索引
- 序列的分类:
可变序列(序列中的元素可以改变):
> 列表(list)
不可变序列(序列中的元素不能改变):
> 字符串(str)
> 元组(tuple)
可变对象
- 每个对象中都保存了三个数据:
id(标识)
type(类型)
value(值)
- 列表就是一个可变对象
a = [1,2,3]
- a[0] = 10 (改对象)
- 这个操作是在通过变量去修改对象的值
- 这种操作不会改变变量所指向的对象
- 当我们去修改对象时,如果有其他变量也指向了该对象,则修改也会在其他的变量中体现
- a = [4,5,6] (改变量)
- 这个操作是在给变量重新赋值
- 这种操作会改变变量所指向的对象
- 为一个变量重新赋值时,不会影响其他的变量
- 一般只有在为变量赋值时才是修改变量,其余的都是修改对象
字典(dict)
- 字典属于一种新的数据结构,称为映射(mapping)
- 字典的作用和列表类似,都是用来存储对象的容器
- 列表存储数据的性能很好,但是查询数据的性能的很差
- 在字典中每一个元素都有一个唯一的名字,通过这个唯一的名字可以快速的查找到指定的元素
- 在查询元素时,字典的效率是非常快的
- 在字典中可以保存多个对象,每个对象都会有一个唯一的名字
这个唯一的名字,我们称其为键(key),通过key可以快速的查询value
这个对象,我们称其为值(value)
所以字典,我们也称为叫做键值对(key-value)结构
每个字典中都可以有多个键值对,而每一个键值对我们称其为一项(item)
集合(set)
- 集合和列表非常相似
- 不同点:
1.集合中只能存储不可变对象
2.集合中存储的对象是无序(不是按照元素的插入顺序保存)
3.集合中不能出现重复的元素
异常
程序在运行过程当中,不可避免的会出现一些错误,比如:
使用了没有赋值过的变量
使用了不存在的索引
除0
...
这些错误在程序中,我们称其为异常。
程序运行过程中,一旦出现异常将会导致程序立即终止,异常以后的代码全部都不会执行!
处理异常
程序运行时出现异常,目的并不是让我们的程序直接终止!
Python是希望在出现异常时,我们可以编写代码来对异常进行处理!
try语句
try:
代码块(可能出现错误的语句)
except 异常类型 as 异常名:
代码块(出现错误以后的处理方式)
except 异常类型 as 异常名:
代码块(出现错误以后的处理方式)
except 异常类型 as 异常名:
代码块(出现错误以后的处理方式)
else:
代码块(没出错时要执行的语句)
finally:
代码块(该代码块总会执行)
try是必须的 else语句有没有都行
except和finally至少有一个
可以将可能出错的代码放入到try语句,这样如果代码没有错误,则会正常执行,
如果出现错误,则会执行expect子句中的代码,这样我们就可以通过代码来处理异常
避免因为一个异常导致整个程序的终止
异常的传播(抛出异常)
当在函数中出现异常时,如果在函数中对异常进行了处理,则异常不会再继续传播,
如果函数中没有对异常进行处理,则异常会继续向函数调用处传播,
如果函数调用处处理了异常,则不再传播,如果没有处理则继续向调用处传播
直到传递到全局作用域(主模块)如果依然没有处理,则程序终止,并且显示异常信息
当程序运行过程中出现异常以后,所有的异常信息会被保存一个专门的异常对象中,
而异常传播时,实际上就是异常对象抛给了调用处
比如 : ZeroDivisionError类的对象专门用来表示除0的异常
NameError类的对象专门用来处理变量错误的异常
....
在Python为我们提供了多个异常对象
抛出异常
- 可以使用 raise 语句来抛出异常,
raise语句后需要跟一个异常类 或 异常的实例
文件(File)
- 通过Python程序来对计算机中的各种文件进行增删改查的操作
- I/O(Input / Output)
- 操作文件的步骤:
① 打开文件
② 对文件进行各种操作(读、写),然后保存
③ 关闭文件
打开文件
open(file, mode='r', buffering=-1, encoding_=None, errors=None, newline=None, closefd=True, opener=None) # 使用open函数来打开一个文件 # 参数: # file 要打开的文件的名字(路径) # 返回值: # 返回一个对象,这个对象就代表了当前打开的文件 # 创建一个变量,来保存文件的名字 # 如果目标文件和当前文件在同一级目录下,则直接使用文件名即可 file_name = 'demo.txt' # 在windows系统使用路径时,可以使用/来代替 # 或者可以使用 \ 来代替 # 或者也可以使用原始字符串 file_name = 'hello\demo.txt' file_name = r'hellodemo.txt' # 表示路径,可以使用..来返回一级目录 file_name = '../hello/demo.txt' # 如果目标文件距离当前文件比较远,此时可以使用绝对路径 # 绝对路径应该从磁盘的根目录开始书写 file_name = r'C:UserslilichaoDesktophello.txt' # file_obj = open(file_name) # 打开 file_name 对应的文件 # print(file_obj)关闭文件
打开文件 file_name = 'demo.txt' 调用open()来打开文件 # file_obj = open(file_name) 当我们获取了文件对象以后,所有的对文件的操作都应该通过对象来进行 读取文件中的内容 read()方法,用来读取文件中的内容,它会将内容全部保存为一个字符串返回 # content = file_obj.read() # print(content) 关闭文件 调用close()方法来关闭文件 # file_obj.close() with ... as 语句 # with open(file_name) as file_obj : # # 在with语句中可以直接使用file_obj来做文件操作 # # 此时这个文件只能在with中使用,一旦with结束则文件会自动close() # print(file_obj.read())文件读取和写入
readline()
该方法可以用来读取一行内容
# print(file_obj.readline(),end='')
# print(file_obj.readline())
# print(file_obj.readline())
readlines()
该方法用于一行一行的读取内容,它会一次性将读取到的内容封装到一个列表中返回
# r = file_obj.readlines()
# pprint.pprint(r[0])
# pprint.pprint(r[1])
# pprint.pprint(r[2])
使用open()打开文件时必须要指定打开文件所要做的操作(读、写、追加)
# 如果不指定操作类型,则默认是 读取文件 , 而读取文件时是不能向文件中写入的
# r 表示只读的
# w 表示是可写的,使用w来写入文件时,如果文件不存在会创建文件,如果文件存在则会截断文件
# 截断文件指删除原来文件中的所有内容
# a 表示追加内容,如果文件不存在会创建文件,如果文件存在则会向文件中追加内容
# x 用来新建文件,如果文件不存在则创建,存在则报错
# + 为操作符增加功能
# r+ 即可读又可写,文件不存在会报错
# w+
# a+
# with open(file_name , 'w' , encoding='utf-8') as file_obj:
# with open(file_name , 'r+' , encoding='utf-8') as file_obj:
write()来向文件中写入内容
# 如果操作的是一个文本文件的话,则write()需要传递一个字符串作为参数
# 该方法会可以分多次向文件中写入内容
# 写入完成以后,该方法会返回写入的字符的个数
文件的其他操作
import os
from pprint import pprint
# os.listdir() 获取指定目录的目录结构
# 需要一个路径作为参数,会获取到该路径下的目录结构,默认路径为 . 当前目录
# 该方法会返回一个列表,目录中的每一个文件(夹)的名字都是列表中的一个元素
r = os.listdir()
# os.getcwd() 获取当前所在的目录
r = os.getcwd()
# os.chdir() 切换当前所在的目录 作用相当于 cd
# os.chdir('c:/')
# r = os.getcwd()
# 创建目录
# os.mkdir("aaa") # 在当前目录下创建一个名字为 aaa 的目录
# 删除目录
# os.rmdir('abc')
# open('aa.txt','w')
# 删除文件
# os.remove('aa.txt')
os.rename('旧名字','新名字') 可以对一个文件进行重命名,也可以用来移动一个文件
# os.rename('aa.txt','bb.txt')
os.rename('bb.txt','c:/users/lilichao/deskt
Hive总结
hive简介
Hive是基于Hadoop的一个数据仓库工具(离线),可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 hive数据分析系统(数据仓库,像一个仓库一样,存放着很多数据,而且可以做各种查询、统计和分析,将结果放入新生的表中) 为什么要使用Hive 1.操作接口采用类SQL语法,提供快速开发的能力。 2.避免了去写MapReduce,减少开发人员的学习成本。 3.功能扩展很方便。 Hive的特点 1.可扩展 Hive可以自由的扩展集群的规模,一般情况下不需要重启服务。 2.延展性 Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。 3.容错性 良好的容错性,节点出现问题SQL仍可完成执行。 hive的基本架构 Jobtracker是hadoop1.x中的组件,它的功能相当于: Resourcemanager+MRAppMaster TaskTracker 相当于: Nodemanager + yarnchild hive 2.0 以后的版本,底层的运算引擎已经不是mr了,而是sparkhive使用方式
1、直接在交互界面输入sql进行交互。
2、sql里可以直接使用java类型。
3、hive中建立数据库后,会在hdfs中出现对象的库名.db的文件夹
4、建表的目的是为了和数据文件进行映射;建立表之后(默认建立在default库中),hive会在hdfs上建立对应的文件夹,文件夹的名字就是表名称;
4.1、只要hdfs文件夹中有了数据即文件,对应的表中就会有了记录
4.2、hdfs文件中的数据是按照分隔符进行切分的(value.toString().split("分割符"))(默认分隔符 01:ctrlA--不可见,cat命令下看不见);表的定义是保存在mysql中的。
```



