
随着互联网技术的发展和普及,网络招聘已成为一种越来越普遍的招聘模式,如何从互联网招聘网站分析对就业有价值的数据,具有较好的现实意义。
通过数据挖掘和分析,发现隐藏在数据中的模式和规律,得到数据分析的结果,从而提高毕业生与招聘市场需求之间的匹配度。通过对课题的研究力图为毕业生提供就业指导、为高校制定培养方案提供参考,可以有针对性地学习和培养有关理论基础与实践能力。
对网络招聘信息的分析主要可分为四个阶段:需求分析、数据挖掘、数据分析、可视化展示。针对需求研究了Spark编程模型,RDD弹性分布式数据集,采用Python编程实现,通过 PySpark来进行数据的处理。

PySpark整体架构图
在PySpark数据处理框架对采集的数据进行大数据分析,利用结巴分词对岗位描述进行分词处理以及关键词的提取和统计。

词频柱状图
再通过词向量训练进行求职者岗位相似度计算,最后通过Echarts绘制可视化展板进行对各数据的展示。

可视化BI大屏
通过数据分析结果可知,数据类相关的职位主要集中在互联网和金融行业,其中招聘城市主要集中在上海、广州、深圳、北京、杭州这些一线城市;主要要求大学本科学历以上,大部分为企业以民营为主,工作经验越高薪资待遇越好。
同时,对大数据下的各岗位信息及特点要求进行数字化分析检测,同时我们也可以发现,现在企业对高科技人才的需求量正在不断增加,甚至用一才难求来反应当前社会对所需人才的迫切渴望,涉及计算机相关数据分析类的、信息管理与信息系统类的、数据结构与算法编程类的人才也最受企业青睐,其中大数据工作最吃香的技能是:Hadoop、SQL和Python,熟练掌握数据分析和数据挖掘技术可对求职者找到合适、心仪的工作。从长远的角度而言,也有利于我国数据类型人才的储备基础。