利用isspace()放法进行判断
s = ' ' s.isspace() #去除左右两端空格 s.strip()2.筛选dataframe中某一列包含某些字符串
df[df['地址'].str.contains('北京')]
#原来python和java一样,拥有contains方法
#或者采用dataframe中的filter方法
df_filter = df.filter(regex='abc')
3.dataframe取并集/合计/差集
# 取交集:既在df1中,也在df2中 intersection_result = pd.merge(df1, df2) print(intersection_result) # 取合集:df1和df2所有数据的集合 union_result = pd.merge(df1, df2, how='outer') print(union_result) #取差集 在df1中但不在df2中的 df1 = df1.append(df2) df1 = df1.append(df2) differenct_set_result = df1.drop_duplicates(['id'],keep=False) print(differenct_set_result)4.pandas中的dropna
df.dropna(how='all') #将所有数值均为空的行删除 df.dropna(how='all',axis=1) # 将所有数据均为空的列删除 df.dropna(thresh=2) #一行中最多有两个NaN,否则删除5.python高级可视化库plotly express使用教程(太多了)
python高级可视化库
6.ipykernel简介对于不同环境的内核,如果您希望为不同的虚拟机或者conda环境设置很多个ipython内核,则需要为Kelnscript指定唯一的名称
7.获取int和float类型的最大值#获得int类型的最大值
import sys
MAX_INT = sys.maxsize
print(MAX_INT)
#float最大值
max_float = float('inf')
#float最大值就是inf
8.判断字典中某个键是否存在
#我属实是没想到python能这么方便,可以直接用in
if 'key' in dict:
print('yes')
if 'key' in dict.keys():
print('yes')
9.统计python列表元素出现的次数
result = {}
for i in set(list):
result[i] = list.count(i)
10.数组拼接
#chain方法过于繁琐,对于少量数据可以采用以下方法拼接(两个列表) a = [1,2] b = [3,4] a.extend(b)11.xz后缀文件
后缀名为xz的这种文件是使用tar打包后再丫说生成的
解压:
xz -d *.tar.xz
pd.cut是对数据进行分箱工作,这里
介绍的很详细
| 字符串名称 | 代码 |
|---|---|
| best | 0 |
| upper right | 1 |
| upper left | 2 |
| lower left | 3 |
| lower right | 4 |
| right | 5 |
| center left | 6 |
| center right | 7 |
| lower center | 8 |
| upper center | 9 |
| center | 10 |



