摘要:
近年来,随着互联网的广泛应用和网络招聘的迅速发展,网络招聘信息平台已成为招聘者获取信息的主要渠道。因此,运用网络文本分析和数据挖掘技术对网络招聘信息的研究具有重大的意义。
对于问题 1,通过 PositionId 对招聘信息表、职位描述表进行去重,得到不重复的招聘职位信息。利用 jieba 中文分词工具对岗位描述信息进行分词,并通过 TF-IDF 算法提取每个职位描述的前 5 个关键词。再利用 TF-IDF 算法得到每个职位描述的 TF-IDF 权重向量,采用 K-means 对 TF-IDF 权重向量进行聚类,得到 7 个质心。分别求出距离各个质心最近的 5 个职位,结合招聘信息表的 PositionFirstType 字段,根据 KNN 算法,为各个类加上行业性质标签。再分别对各个职业类型的 PositionName 进行统计分析,得出各个职业类型对应的专业领域。
对于问题 2,通过利用 excel 对去重后的招聘信息表对行业领域、工作地域、职位分类三个项目进行分类筛选,对各个项目的各类内容进行计数汇总统计,根据计数多的内容去定于热门的行业、地域、职位。
对于问题 3,根据数据挖掘与分析的职位特征,将新兴的职位定义为两大类并分别筛选出来。利用发散性思维,再分别对筛选出来的结果按照城市(city)、公司阶段(financestage)、学历要求(Education)、薪资(Salary)四个方面对其进行多方面系统地统计,结合图表进行分析预测相关职位的需求。
对于问题 4,通过寻找 it 职位对应的 id 的职业描述,并对其分词和 it 专业语义库构建,在此基础上筛选出所有的 it 职位。对附件 1 进行数据预处理,在预处理得到的数据上进行数据初步筛选出 it 行业的职位。对筛选出的 it 职位对应的职业 id 找到职位描述表的职位描述,对该描述构建 it 专业语义库。判断职业描述表中职位是否符合 it 职业,通过判断与专业语义库的交集长度来确定是否为 it 职业并统计地域。
对于问题 5,根据研究结果,通过分析目前的主要职业类型、职业要求、热门行业及地域、工作经验及就业现状等问题,给在校大学生的就业规划提出可行性的建议。
关键词:去重中文分词,K-means聚类,KNN算法,TF-IDF算法,预测相关职位