【爬虫】Python爬取世界杯球员榜单并保存到excel经验分享
创始人
2024-02-09 21:54:22
0

大家好 我是Yhen

今天给大家分享一下
如何爬取卡塔尔世界杯球员榜
在这里插入图片描述

数据来源:百度体育
https://tiyu.baidu.com/match/%E4%B8%96%E7%95%8C%E6%9D%AF/tab/%E7%90%83%E5%91%98%E6%A6%9C/current/0

文章目录

    • 一.需求分析
    • 二.思路分析
    • 三.代码实战
    • 四.源码获取

一.需求分析

我们这次的目标是将所有榜单(射手榜、助攻榜…犯规)中的球员名 球队名/球员位置 以及榜单对应的数据爬取下来
在这里插入图片描述在这里插入图片描述

并保存到excel中去

二.思路分析

首先按下键盘的F12 打开浏览器检查工具

在这里插入图片描述

点击左上角的按钮 再点击到球员的名字处
在这里插入图片描述

我们可以看到射手榜中的球员名字的数据在页面中 id为球员榜0下的a标签下 class属性为info标签下的class属性为c-color-link c-line-clamp1的文本

同理
球队/队员位置的数据在 class属性为info标签下的class属性为c-color-gray c-line-clamp1的文本
(叠的BUFF有点多,新手看起来可能有点复杂…别急慢慢看,其实就是看每个展开的接口,然后找到对应的唯一的属性标识。不熟悉可以看看我其他的爬虫文章多多了解,练多了就好了~加油)
在代码中用Pyquery解析出来就好了
在这里插入图片描述

但是这只是第一个榜单,如何获取其他的榜单的数据呢?

接下来我们观察一下
我们点击不同的榜单 url会有怎么样的变化呢?
射手榜

助攻榜
点球榜

聪明的同学很快就发现了
每切换一次榜单,url最后的数字就会增加1

哇~ 你真厉害 这都被你发现了
点赞!

于是聪明的同学自信的敲起了代码
很快啊 一个获取球员信息的代码就写出来了
在这里插入图片描述

但当这位聪明的同学自信地运行时
却发生了意想不到的一幕
在这里插入图片描述

嗯嗯嗯?怎么就这么一点数据

他对比了一下原网页,现在似乎只爬取到了第一个榜单的数据
在这里插入图片描述

他百思不得其解
没理由啊,我已经根据榜单的数量做了一个循环处理了呀
为啥还是只得到第一个的数据呢?

困惑的他回到网页中
手动地将url中最后的数字从0改成1
在这里插入图片描述

按下回车

无语的一幕发生了
在这里插入图片描述

网页中显示的还是第一个榜单的内容…

怪不得
无效跳转了属于是
后来他又尝试改成其他的数字
在这里插入图片描述

最后发现无论改成多少,显示的都是第一个榜单的内容

他终于悟了
在这里改变上面的url并不能实现页面的跳转

那么到底如何获取其他榜单的内容呢?

回到网页中来
在这里插入图片描述

有没有一种可能
其他榜单的数据其实早就在页面中了呢?

仔细观察网页元素
发现榜单是由不同的div块组成的
每个榜单对应不同id的div块

在这里插入图片描述

再仔细看看发现 每个榜单数据的获取
除了id不同,其他子元素都是相同的

在这里插入图片描述

那么在没有指定id的情况下,获取的范围是更大的
在页面完整的情况下,常理来说应该能获取所有id下的数据才对
那么为什么只能获取到第一个榜单的数据?

Emmm…页面完整的话…
嗯?难道刚刚爬取下来的页面元素不完整?

于是我打印了刚刚获取到的源码
在这里插入图片描述

按下ctrl + F 搜索发现可以搜索到 球员榜0的数据

在这里插入图片描述

但当我搜索 球员榜1 时 就找不到对应的数据了
在这里插入图片描述

真相了
爬取下来的根本就没有我们想要的内容
那么还谈何解析?

为什么会这样呢?
因为我是用requessts发送请求并获取页面数据的

但是因为requests获取的是静态页面返回的数据

很多页面的内容并没有加载完全或者需要我们执行下滑操作才能加载

所有其他榜单的内容就无法获取到了

对于这种情况 我们可以使用selenium来爬取
在这里插入图片描述
在这里插入图片描述

现在就可以成功获取到其他榜单的内容了
有了数据
其他就是小菜一碟了

三.代码实战

首先导包

import requests
from pyquery import PyQuery as pq
from openpyxl import Workbook, load_workbook
from openpyxl.styles import Font, Alignment
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import time
from pyquery import PyQuery as pq

Tip:需要下载浏览器对应的webdriver驱动才能使用selenium
各个浏览器下载地址参考:
https://www.jianshu.com/p/6185f07f46d4

使用selenium 爬取页面内容
在这里插入图片描述
运行结果
在这里插入图片描述

解析出数据(详细方法看上面思路分析)

在这里插入图片描述
运行结果
在这里插入图片描述


写入到excel中


在这里插入图片描述
在这里插入图片描述


我们来看看最终的效果吧~
在这里插入图片描述

射手榜

和网页上的对比一下
在这里插入图片描述

除了同成绩的展示顺序不一样(网站随机排序,刷新几次都不一样)
其他都是一样的

在这里插入图片描述

在这里插入图片描述

助攻榜

在这里插入图片描述
在这里插入图片描述

犯规榜

至此
我们已经成功爬取下了世界杯的榜单

四.源码获取

在这里插入图片描述

源码中含有详细注释

扫码关注我的公众号Yhen杂文铺
后台回复关键词世界杯爬虫获取源码哦

在这里插入图片描述

相关内容

热门资讯

押韵的经典语录社会 导语:时光听着一段旋律,熟悉在心里的记忆,阳光烘干一片阴雨,温暖在晴朗的笑容里,目光琉璃一行小诗,晶...
大一新生寄语 大一新生寄语5篇  在平日的学习、工作和生活里,大家都不可避免地会接触到寄语吧,寄语是指寄托希望和美...
毕业感言:值得我们珍惜 毕业感言:值得我们珍惜  每年凤凰花开时,就是一个小学生飞向另一段旅程,开始青少年生活的时候,毕业感...
与老外的聊天技巧 与老外的聊天技巧  西方人为了彼此融洽相处,维护国家良好形象,特别重视生活教育和人际关系。尤其平时说...
代嫁弃妃 安知晓 小说语录   方流苏:有的人,适合相伴一生,有的人,适合怀念一生,这都是幸福  ——安知晓《代嫁弃妃》  风南...
安意如《陌上花开》唯美语录   爱情用来遗忘,感情用来摧毁,忠诚用来背叛,在时之洪流中起落,人心常常经不住世事熬煮。一切都存在变...
幼儿园暑假工作安排公文 幼儿园暑假工作安排公文  尊敬的家长朋友们:  转眼间,本学期即将结束,衷心的'感谢您一直以来对幼儿...
感谢家长的话语 感谢家长的话语感谢家长的话语1.坐在电脑前敲打着键盘,出一张“两位数加减一位数、整十数”的口算练习。...
第一学期中班幼儿评语 第一学期中班幼儿评语(精选15篇)  在平平淡淡的日常中,大家都写过评语吧,评语的内容包括被考评者的...
王小波的经典语录100句   王小波的小说既继承了年代对爱情与革命权力关系的思考,具有强烈启蒙意味,也顺应了年代世俗化潮流。接...
经典祝愿高考成功寄语 经典祝愿高考成功寄语(通用90句)  六月参加高考,准备还得趁早,心态一定摆正,付出必有回报,毕竟熬...
电影的观后感 电影的观后感  在观看完一部作品以后,能够给我们不少启示,这时候最关键的观后感不能忘了。但是观后感有...
利益关系经典语录 利益关系经典语录  在日常的学习、工作、生活中,大家都知道一些经典的语录吧,语录是指一个人的说话记录...
哆啦a梦语录 哆啦a梦语录  01、骗人有风险,说谎要谨慎。  02、日子就像偷跑的小孩,无声地溜走。  03、知...
感人的情书经典语录   在很多超感人的情书中,是有一些情书经典语录起到关键作用。小编今天收集了超感人情书经典语录,希望得...
高中生毕业寄语 高中生毕业寄语4篇  在日常的学习、工作、生活中,大家总免不了要接触或使用寄语吧,寄语是所传的、寄托...
优秀班干部获奖感言 优秀班干部获奖感言优秀班干部获奖感言尊敬的老师,亲爱的同学: 大家晚上好!我是S,今天很高兴作为获奖...
最新感人经典语录 最新感人经典语录  1其实,我不是一定要等你,只是等上了,就等不了别人了。《朝露若颜》  2如果世界...
小说我的美女大小姐经典语录   揭穿谎言背后的谎言多累啊!还不如站的离你远点儿,看着你怎么在谎言中尽情的表演  ——李兴禹《我的...
个性早安寄语 常用个性早安寄语汇总75句  我只是想写一封信给你,寄信人在河这头,收信人在河那头。隔开我们的这条河...