栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

招聘网站职位分析数据可视化系统(Hadoop课设)

招聘网站职位分析数据可视化系统(Hadoop课设)

一:爬取数据

二:上传数据

三:数据分析

四:数据可视化

第一部分:数据的爬取

UP主利用bs4爬取的51招聘的招聘信息。

for i in os.listdir(a):
        if len(os.listdir(a)) != 0:
            path = os.path.join(a, i)
            path = path.split('\')[-1]
            os.remove('D:Dedupinput\' + path)

这一段代码判断文件夹里有没有已经爬取的文件,如果有就把文件删除。 

def job(gw):
    for i in range(20):
        url='https://search.chinahr.com/bj/job/pn'+str(i+1)+'/?key='+gw
        headers={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36 Edg/95.0.1020.53'}
        response=requests.get(url,headers=headers)
        response=response.content.decode('utf-8')
        soup=BeautifulSoup(response,'lxml')
        result=soup.select('div[]')

        for i in result:
            litest = i.li.get_text()
            litest = litest.replace('n', '').replace(' ', '')
            ullist=i.select('ul[]')
            ulsalary=ullist[0].select('li[]')
            a=ulsalary[0].text.replace('n', '').replace(' ', '')

            if a!='薪资面议':
                file = open('D:Dedupinput\'+gw+'.txt', 'a', encoding='utf-8')
                file.write(litest+':'+a+'n')

gw=input('请输入岗位关键字')
job(gw)

这段是爬虫基础代码。

第二部分:上传数据

此处利用WinSCP,将爬取的数据放到hadoop的 /export/data  文件夹下,之后在linux(CRT)里输入如下语句:
hadoop fs -put /export/data/你爬取的文件名.txt /input

此时已经将爬取的数据文件上传到hadoop了。

进入50070网站检查文件是否上传成功。

第三部分:数据分析

此部分在eclipse中编写。

在准备好的hadoopdemo的maven文件的jsrc/main/java包里创建cn.it包,并创建DedupMapper、DedupReducer和DedupRunner三个文件。

DedupMapper进行处理文件的key-value值(数据预处理)

DedupReduce进行数据分析

DedupRunner是主程序

Map:

Text指定key(file)和value(file2)为string(字符串)类型

用a和b分别记录 :和月的位置

接下来处理爬取的数据  (未处理数据形式如下) 

    field.set(value.toString().substring(0,a));
        field2.set(value.toString().substring(a+1,b-2));

这两句表示key(file)取到 :之前→(0,a)左闭右开

 value取到:之后,元之前

处理后的数据如下:

 

Reduce:

此处求了各个职业的工资平均值

 Runner:

runner后回到50070网站

 点击part-r-00000进行下载后,将part-r-00000放到一个文件夹中。

四:数据可视化

可以用柱状图和词云图等进行操作。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/633034.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号