Skip to content

Noahmlng/WebDataCrawler

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 

Repository files navigation

爬虫代码集合

该部分的爬虫代码包括:boss直聘爬虫、linkin爬虫、YC爬虫、天眼查融资数据库爬虫

涉及的技术点包括:

  • 设置动态ip(boss直聘爬虫)

  • 自动翻页(boss直聘爬虫)

  • 瀑布流翻页到底(YC爬虫)

  • 设置cookies自动登录(linkin爬虫&天眼查融资数据库爬虫)

这些代码都基于python+selenium来编写的,需要提前配置好python和selenium的环境。(selenium安装地址:https://www.selenium.dev/)。需要注意的是:最好驱动firefox,而不要使用chrome(新版chrome已经不支持selenium)

下面对四个爬虫程序的准备工作、输入、输出、注意事项几个方面进行介绍

boss直聘爬虫

这个爬虫的产生源于一个找项目的insight:符合我们要求的项目通常都具有类似的招人需求。因此可以收集往届校友企业的招人需求,在boss直聘上进行搜索,找到有类似需求的企业

准备工作

  • 需要一份往期校友招聘关键词的清单,如文件“MPB_往期校友_招聘需求提取关键词_77#”所示。

  • 需要在一家ip代理商中注册账号,购买服务。之前用的是“太阳HTTP”,账号为:13507436010,密码:miracleplusbrain。账号内还有50元。

    之所以需要使用动态ip,是因为boss直聘的反爬虫机制,一个ip最多只能采集到50条数据就会被封禁

输入

往期校友招聘关键词的清单

输出

**'当前阶段','职工人数','行业赛道','工商注册名称1','工商注册名称2','工商注册名称3'。**之所以有三个“工商注册名称”是因为网页结构问题不好定位,因此把三个可能包含的内容都采集了下来。后续可以检索其中包含“有限公司”的那一个,进行清洗。

注意事项

运行过程中,有时会因未知原因停止,一般而言只需要查看当前循环的i,然后从断点继续运行即可

linkin爬虫

准备工作

  • 由于目前linkin已不服务中国区,因此爬linkin的数据需要挂一个vpn

  • 创建一个名为“linkincookies”的空txt文档,然后提前运行代码中下段注释的部分,在运行过程中在网页界面里登录,然后再使用代码保存cookies

url='https://www.linkedin.com/home'
browser.get(url)
#输入手机号密码
cookies=browser.get_cookies()
fw=open('linkincookies.txt', 'w')
json.dump(cookies, fw)
fw.close()

输入

一系列项目名称

输出

'姓名','第一联系人身份','项目名称','一句话介绍','成立时间','行业赛道','资料','当前轮次','融资金额','官网','手机号','第一联系人链接','主要联系人链接','公司规模','城市'

  • 其中,第一联系人的筛选逻辑:若该用户的介绍中出现了“CEO”,则认为他是第一联系人。否则将其链接置于“主要联系人链接”中。

  • 你可能注意到,由linkin爬取的数据大部分均不包含手机号。所以需要使用“人脉数据上传格式化工具”中的自动填充手机号功能,才能够上传。

注意事项

运行过程中,注意每次生成的cookies具有一定时效性。一段时间后(几天)需要重新生成。

YC爬虫

输入

**需要采集的YC网址。**因为超过1000条的结果显示不完全,所以这里需要仔细调整项目筛选条件,使得每一个链接对应页面的搜索结果都在1000条内,都能显示完全。

输出

'项目名称','城市'

  • 如果需要进一步的信息,可以在代码中加入循环点击的部分,进行深入采集。

天眼查融资数据库爬虫

天眼查中有两个数据库,一个是工商信息数据库,可以通过会员账号直接下载信息。另一个是融资信息数据库,需要使用该段代码进行爬取。

准备工作

  • 注册一个天眼查的普通账号

  • 创建一个名为“tianyancookies”的空txt文档,然后提前运行代码中下段注释的部分,在运行过程中在网页界面里登录,然后再使用代码保存cookies

browser.get(url)
#输入手机号密码
cookies=browser.get_cookies()
fw=open('tianyancookies.txt', 'w')
json.dump(cookies, fw)
fw.close()

输入

一些公司注册名称或者项目名称

输出

'公司注册名称','项目名称','行业赛道','简介','上一轮融资至今时长','融资金额','当前轮次','历史投资方'。如果通过搜索的关键词找不到该公司,则会直接跳过该关键词。

注意事项

运行过程中,每隔100条数据,就会弹出一个“天眼查校验”的窗口。需要进行人工校验。此时只需要正常在页面上完成校验,然后重新设置循环i,在断点继续运行即可

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%