有哪些可以查企业信息的网站？

文章 2 年前 0 180

一、前言

随着经济的发展，越来越多的人开始关注企业的信息。如果我们需要查阅某个企业的信息，我们通常会使用搜索引擎进行查询。但是，有时候我们需要获得更加详细、全面的企业信息。这时，我们就需要使用一些专门的网站来查询企业信息。

二、网站介绍

1.国家企业信用信息公示系统

国家企业信用信息公示系统是由国家市场监督管理总局负责建设和管理的，是一个公正、透明、便捷的企业信用信息发布平台。该平台收集、整理、公示所有企业的基本信息、经营状况、经营范围、法律诉讼、行政处罚等信息。

访问地址：http://www.gsxt.gov.cn

案例：查询阿里巴巴集团的基本信息。

分析网页结构，你可以发现搜索框的name为“searchword”，因此我们可以通过POST请求向服务器提交数据。

Python代码实现：

“`python
import requests

def search(company_name):
url = “http://www.gsxt.gov.cn/corp-query-search-1.html”
headers = {
“User-Agent”: “Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3”
}
data = {
“searchword”: company_name,
“searchType”: 1
}
response = requests.post(url, headers=headers, data=data)
print(response.text)

search(“阿里巴巴集团”)
“`

代码解释：

首先，我们导入了requests库，用于发送HTTP请求。然后，我们定义了一个search函数，接收企业名称作为参数。接着，我们通过POST请求向国家企业信用信息公示系统提交数据。headers中包含了一些常用的请求头，data中包含了企业名称和查询类型。最后，我们打印了服务器的响应。

2.天眼查

天眼查是一个企业信息查询平台，汇集了大量的企业信息，包括公司基本信息、工商信息、法律诉讼、失信人等信息。该平台提供了Web和APP两种访问方式。

访问地址：https://www.tianyancha.com

案例：查询字节跳动的基本信息。

分析网页结构，你可以发现搜索框的class为“header-search-input”，因此我们可以通过POST请求向服务器提交数据。

Python代码实现：

“`python
import requests

def search(company_name):
url = “https://www.tianyancha.com/search”
headers = {
“User-Agent”: “Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3”
}
data = {
“key”: company_name,
“checkFrom”: “searchBox”
}
response = requests.post(url, headers=headers, data=data)
print(response.text)

search(“字节跳动”)
“`

代码解释：

我们同样导入了requests库，然后定义了一个search函数来执行查询。与上一例子不同的是，我们这里向 https://www.tianyancha.com/search 发送了POST请求。在headers和data中，我们设置了一些请求头和提交的数据。最后，我们打印了服务器的响应。

3.企业工商信息公示系统

企业工商信息公示系统是由国家市场监督管理总局建设和管理的，是由企业工商管理局依据法律规定收集、整理、公示企业工商登记文件及其他与工商登记有关的信息的电子平台。该平台也提供了很多常用的查询功能，用户可以查询企业的基本信息、股权结构、许可证书、知识产权、行政许可等信息。

访问地址：http://www.saic.gov.cn/

案例：查询小米集团有限公司的营业执照信息。

分析网页结构，你可以发现搜索框的name为“textfield”，因此我们可以通过GET请求向服务器提交数据。

Python代码实现：

“`python
import requests
from bs4 import BeautifulSoup

def search(company_name):
url = “http://www.saic.gov.cn/”
params = {
“chinaname”: company_name,
“showsugg”: 0,
“x”: 0,
“y”: 0
}
headers = {
“User-Agent”: “Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3”
}
response = requests.get(url, headers=headers, params=params)
soup = BeautifulSoup(response.text, “html.parser”)
for tr in soup.find_all(“tr”):
th = tr.find(“th”)
if th and th.text.strip() == “营业执照信息”:
td = tr.find(“td”)
print(td.text.strip())

search(“小米集团有限公司”)
“`

代码解释：

我们使用requests库发送了GET请求，并在params中指定了查询条件。headers中包含了我们通常发送的请求头，用于伪装我们的请求。因为返回的是HTML文档，我们使用BeautifulSoup来解析乱码和提取我们需要的信息。最后，我们遍历了HTML文档中的table标签，找到了营业执照信息这一项，并输出了对应的值。

4.中华人民共和国司法部

中华人民共和国司法部是中国政府的一个部门，负责司法行政工作。他们提供了一个企业信息查询平台，允许用户查询企业的法人代表信息、行政处罚信息等。

访问地址：http://www.creditchina.gov.cn/

案例：查询淘宝（中国）软件有限公司的行政处罚信息。

分析网页结构，你可以发现搜索框的name为“keyword”，因此我们可以通过GET请求向服务器提交数据。

Python代码实现：

“`python
import requests
from bs4 import BeautifulSoup

def search(company_name):
url = “http://www.creditchina.gov.cn/”
params = {
“keyword”: company_name
}
headers = {
“User-Agent”: “Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3”
}
response = requests.get(url, headers=headers, params=params)
soup = BeautifulSoup(response.text, “html.parser”)
for tr in soup.find_all(“tr”):
th = tr.find(“th”)
if th and th.text.strip() == “行政处罚信息”:
td = tr.find(“td”)
print(td.text.strip())

search(“淘宝（中国）软件有限公司”)
“`

代码解释：

我们使用requests库发送了GET请求，并在params中指定了查询条件。headers中包含了我们通常发送的请求头，用于伪装我们的请求。同样地，我们使用BeautifulSoup来解析HTML文档。最后，我们遍历了HTML文档中的table标签，找到了行政处罚信息这一项，并输出了对应的值。

5.招聘网站

招聘网站通常提供了企业的招聘信息，可用于快速了解企业的规模、发展状况和业务方向。一些著名的招聘网站包括智联招聘、拉勾网、前程无忧等。

访问地址：http://www.zhaopin.com/

案例：查询腾讯公司的招聘信息。

分析网页结构，你可以发现搜索框的class为“zp-search-input”，因此我们可以通过GET请求向服务器提交数据。

Python代码实现：

“`python
import requests
from bs4 import BeautifulSoup

def search(company_name):
url = “http://sou.zhaopin.com/jobs/searchresult.ashx”
params = {
“jl”: “全国”,
“kw”: company_name,
“sm”: 0,
“p”: 1
}
headers = {
“User-Agent”: “Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3”
}
response = requests.get(url, headers=headers, params=params)
soup = BeautifulSoup(response.text, “html.parser”)
company_num = 0
for div in soup.find_all(“div”, class_=”company”):
a = div.find(“a”, class_=”name”)
if a and a.text.strip() == company_name:
salary = div.find(“span”, class_=”salary”)
print(“公司%s发布了%s个职位，平均薪资为%s。” % (company_name, div[“data-positionname”], salary.text.strip()))
company_num += 1
print(“共查询到%d家与%s有关的公司。” % (company_num, company_name))

search(“腾讯”)
“`

代码解释：

我们使用requests库发送了GET请求，并在params中指定了查询条件。headers中包含了我们通常发送的请求头，用于伪装我们的请求。同样地，我们使用BeautifulSoup来解析HTML文档。我们遍历了HTML文档中所有的公司div，并查找公司名称与我们输入的名称匹配的项。如果匹配成功，我们输出了公司名称、目前招聘的职位数量和平均薪资。

三、结论

通过以上五个网站的分析，我们可以发现这些网站都提供了多种企业信息查询功能。开发者们可以根据自己的需求选择相应的网站来查询信息，并使用Python等语言编写爬虫程序来快速获得所需数据。

最后，笔者提醒大家，使用爬虫程序需要遵循法律法规并尊重网站所有者的知识产权。如果开发者需要大量的企业数据，可以考虑委托专业的数据服务公司来定制爬虫业务。而添闻数据公司作为一家专业的数据服务公司，拥有优秀的技术和丰富的经验，可以为客户提供最优质的数据服务。

主题授权提示：请在后台主题设置-主题授权-激活主题的正版授权，授权购买：RiTheme官网

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

企业信息大数据数据采集爬虫定制

相关文章