当前位置: 欣欣网 > 码农

Python 爬取各搜索引擎提示词

2024-02-22码农

大家好!今天给你们带来了使用requests爬取百度和bing搜索引擎提示词的简单实例。

安装requests:

pip install requests

百度:

import requestsimport reurl = 'http://www.baidu.com/su'params = {'wd': "python"}response = requests.get(url, params=params)if response.status_code == 200:#使用正则表达式提取搜索建议 match = re.search(r's:\[(.*?)\]', response.text)if match: suggestions_str = match.group(1)#利用正则表达式提取每个建议,并以换行分隔打印 suggestions_list = re.findall(r'"([^"]*)"', suggestions_str) print('\n'.join(suggestions_list))

输出:

pythonpython入门教程(非常详细)python下载python编程python代码大全python什么东西python学了能干嘛python怎么读python中的%用法python能做什么

bing:

import requestsurl = 'https://api.bing.com/osjson.aspx'params = {'query': "python"}response = requests.get(url, params=params)if response.status_code == 200: suggestions = response.json()[1] print('\n'.join(suggestions))

输出:pythonpython下载python123python安装python官网python教程python.orgpythonfor循环python爬虫python3python字典pythonlist

requests参数简要:

params:用于向 URL 查询中传递参数。data:用于向服务器提交表单数据或者 JSON 数据。json:用于向服务器提交 JSON 数据。headers:用于设置 HTTP 请求头部。cookies:用于发送 Cookie。auth:用于 HTTP 认证相关设置。files:用于上传文件。timeout:用于设置请求超时时间。allow_redirects:用于设置重定向。proxies:用于设置代理。verify:用于设置是否验证 SSL 证书。stream:用于处理响应的数据流。cert:用于客户端证书认证。