第一次接触Python,爬取葫芦侠某板块一个月数据

开始入门

都说Python最适合写爬虫,而且我们下学期也要开Python这个课,所以我就自己预先看看喽

然后就自己爬取葫芦侠某一个板块这近一个月的板块有1000条左右的文章我看着发布文章的用户年龄分布

捕获

也不小学生啊😄,也可能是当初的小学生都长大了吧!

都说pycharm最适合那我也自然使用了,but下载速度也忒满了吧,python解释器下载也贼慢e,,,然后就求助了镜像,一下子就好了。

首先说下Python语法吧!这个东西给我的贼头疼,上学期刚学完C,这语法结构e。。。空格啥的刚开始就一直不小心把c语法套入一会带个()一会多个{}然后erreo,而且for循环看的我一脸蒙圈as啥的,不过还好多错几次就差不多了。而且小有成就的看来下爬虫。(⊙﹏⊙),首先下载requests库文件用来请求数据。ide里面集成的不造为啥一直下载错误,然后我放弃了,直接cmd中输入

pip install requests

然后完美运行。

葫芦侠

我就直接去试着爬取了葫芦侠一个板块的近一个月的全部帖子做用户分析,期间呢接口啥的自己弄把,而且葫芦侠参数也很简单, 不过有个参数是start很明显是从哪里开始请求我看了一下是1610266542000,我擦啥东西不会是啥加密算法把,然后我又请求几次发现后面000一直不变那么变的就是1610266542那还不好看出来很大概率是时间戳,一测试就是over。其中用户信息页面请求别忘了_KEY查看用户信息需要验证登录状态,自己抓自己的吧。葫芦侠的没遇到啥加密的思路很简单,代码啥的就自己敲两下就完了