网络爬虫是通过自动化的方式进行网页浏览、检索并存储有关的信息。 简单来讲,爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。下面大家通过一个案例进行爬虫实战,本文案例仅用于学习,是以学习为目的的实战:
一、案例要求:
在有道词典上(youdao.com)爬取excel表中指定单词的全部相关信息(包含和音频),并将这些信息存入到excel表和对应的文件夹中。
二、案例分析
1. 爬取的信息源是有道词典
2. 需检索的内容是excel表中,指定的单词
3. 爬取指定单词的相关信息
4. 将这些信息(包含和音频)存入原excel表中
三、Python代码截图
如上图代码,是请求头的内容,在请求头的地方大家可以看到'User-Agent' 这个字段,这里表示的是使用什么来访问有道的网页,有些网页可能会禁止Python的访问防止服务器崩溃,但这个时候大家只需要在自己的代码里面增加'User-Agent'就可以对浏览器进行欺骗。
发表评论 取消回复