温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

python实战之怎么用爬虫修改发布的招聘内容

发布时间:2020-11-24 09:49:25 来源:亿速云 阅读:157 作者:小新 栏目:编程语言

这篇文章主要介绍python实战之怎么用爬虫修改发布的招聘内容,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!

1. 校正发布日期

"time" : "发布于03月31日", "time" : "发布于昨天", "time" : "发布于11:31",

这里拿到的都是这种格式的,所以简单处理下

import datetime   from pymongo import MongoClient   db = MongoClient('127.0.0.1', 27017).iApp   def update(data):     return db.jobs_php.update_one({"_id": data['_id']}, {"$set": data})      # 把时间校正过来 def clear_time():     items = db.jobs_php.find({})     for item in items:         if not item['time'].find('布于'):             continue         item['time'] = item['time'].replace("发布于", "2017-")         item['time'] = item['time'].replace("月", "-")         item['time'] = item['time'].replace("日", "")         if item['time'].find("昨天") > 0:             item['time'] = str(datetime.date.today() - datetime.timedelta(days=1))         elif item['time'].find(":") > 0:             item['time'] = str(datetime.date.today())         update(item) print('ok')

2.校正薪水以数字保存

"salary" : "5K-12K",   #处理成下面的格式 "salary" : {     "low" : 5000,     "high" : 12000,     "avg" : 8500.0 }, # 薪水处理成数字,符合 xk-yk 的数据处理,不符合的跳过 def clear_salary():     items = db.jobs_lagou_php.find({})     for item in items:         if type(item['salary']) == type({}):             continue         salary_list = item['salary'].lower().replace("k", "000").split("-")         if len(salary_list) != 2:             print(salary_list)             continue         try:             salary_list = [int(x) for x in salary_list]         except:             print(salary_list)             continue         item['salary'] = {             'low': salary_list[0],             'high': salary_list[1],             'avg': (salary_list[0] + salary_list[1]) / 2         }         update(item) print('ok')

这里在处理 Boss直聘的数据时,比较简单正常,但是后续抓到拉勾网的数据,拉勾网的数据有些不太规范。比如有‘20k以上’这种描述

以上是“python实战之怎么用爬虫修改发布的招聘内容”这篇文章的所有内容,感谢各位的阅读!希望分享的内容对大家有帮助,更多相关知识,欢迎关注亿速云行业资讯频道!

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI