一般主要是处理国家:
1、所有国家字段:
1)按照[分列C1字段;
2)提取所有国别公式:
=IF(B1="","",IFERROR(MId(F2,FIND("@",SUBSTITUTE(F2,",","@",LEN(F2)-LEN(SUBSTITUTE(F2,",",""))))+1,LEN(F2)),""))
之前只提取国家,有空白后就会停掉,if函数可以直接去掉空白,不用一个个去下拉空白区域了;
3)
=IF(A2<>"",A2&",","")&IF(B2<>"",B2&",","")
4)把数据组合成
20=[“Germany”,“Peoples R China”,“Peoples R China”,“Germany”,“Germany”,“Peoples R China”,“USA”]
print(list(set(20)))
就会变为去重后的数据,例如:
a=[“1”,“3”,“4”,“2”,“3”]
会变为:
a=[“1”,“2”,“3”,“4”]
4)统计多行多列中非重复国别
方法一:
=INDIRECT(TEXT(MIN((COUNTIF(E$1:E1,$A$2:$C$5)+(A$2:C$5<=""))/1%%+ROW(A$2:C$5)/1%+COLUMN(A$2:C$5)),"r0c00"),)&""
方法二:
数据透视表——多重合并计算数据区域
5)计算每种期刊不同国别出现频次:
=COUNTIF(F1:Y10529,Z2)
依次计算出所有期刊的国家频次
妈蛋,所以还是要学编程,学理清楚逻辑关系,否则多几个期刊,这数据咋处理?一个个套么?
虽然知道python可以读取excel数据,也有很多方法去重,但目前好像这种方式对我理解起来最简单,下一步再看吧。



