分享到:文章主题: 爬虫内容不全
Idontknow楼主
What's nick
等级
用户
文章
693
积分
7722
发信人: Idontknow (What's nick), 信区: Python
标  题: 爬虫内容不全
发信站: 北邮人论坛 (Tue Mar 13 18:41:54 2018), 站内

请教一下。
入门爬虫,爬取了拉勾网上的职位信息。但是只有一小部分返回结果。请教一下这个可能会有哪些原因?
另外一个就是HTTPS的SSLError问题。大神们一般都是用什么方法来处理?
--

※ 来源:·北邮人论坛 http://bbs.byr.cn·[FROM: 10.128.242.*]
    返回顶部
    lt1103725556沙发
    挪威的森林
    等级
    用户
    文章
    824
    积分
    6620
    星座
    双子座
    发信人: lt1103725556 (挪威的森林), 信区: Python
    标  题: Re: 爬虫内容不全
    发信站: 北邮人论坛 (Tue Mar 13 18:47:45 2018), 站内

    我猜可能是爬了一会儿被封ip了,每次请求你都把状态码返回回来试试?照理说被封了要报错的。出现各种error你先把错误信息复制到百度或谷歌上面查一下看能不能解决
    --

    ※ 来源:·北邮人论坛手机客户端 bbs.byr.cn·[FROM: 10.28.150.*]
      返回顶部
      Idontknow板凳
      What's nick
      等级
      用户
      文章
      693
      积分
      7722
      发信人: Idontknow (What's nick), 信区: Python
      标  题: Re: 爬虫内容不全
      发信站: 北邮人论坛 (Tue Mar 13 19:23:28 2018), 站内

      我觉得不是被封IP的事。我能爬下网站首页的链接。但是对应到具体的职位信息页面,每次内容就只有一点点。这是我的问题所在。另外出现sslError是提示https的原因。就想看看大神们的解法是咋样的。

      【 在 lt1103725556 (挪威的森林) 的大作中提到: 】
      : 我猜可能是爬了一会儿被封ip了,每次请求你都把状态码返回回来试试?照理说被封了要报错的。出现各种error你先把错误信息复制到百度或谷歌上面查一下看能不能解决
      --

      ※ 来源:·北邮人论坛手机客户端 bbs.byr.cn·[FROM: 223.104.3.*]
        返回顶部
        lt1103725556第3楼
        挪威的森林
        等级
        用户
        文章
        824
        积分
        6620
        星座
        双子座
        发信人: lt1103725556 (挪威的森林), 信区: Python
        标  题: Re: 爬虫内容不全
        发信站: 北邮人论坛 (Tue Mar 13 19:37:53 2018), 站内

        你看看直接看看网页源代码能找到你想要的所有信息吗?然后检查一下你的提取器,试试直接把网页源代码复制下存进一个str里面然后用你的提取器去匹配看能不能提取到之前没爬到的信息?

        【 在 Idontknow (What's nick) 的大作中提到: 】
        : 我觉得不是被封IP的事。我能爬下网站首页的链接。但是对应到具体的职位信息页面,每次内容就只有一点点。这是我的问题所在。另外出现sslError是提示https的原因。就想看看大神们的解法是咋样的。
        --

        ※ 来源:·北邮人论坛手机客户端 bbs.byr.cn·[FROM: 10.28.150.*]
          返回顶部
          brianlee第4楼
          卖阳光的小阿同
          等级
          用户
          文章
          224
          积分
          2611
          星座
          射手座
          发信人: brianlee (卖阳光的小阿同), 信区: Python
          标  题: Re: 爬虫内容不全
          发信站: 北邮人论坛 (Tue Mar 13 20:16:19 2018), 站内

          用的scrapy吗?把时间间隔调长点试试。就是setting里的AUTOTHROTTLE项。。。我也是新手
          --

          ※ 来源:·北邮人论坛 http://bbs.byr.cn·[FROM: 10.206.16.*]
            返回顶部
            Idontknow第5楼
            What's nick
            等级
            用户
            文章
            693
            积分
            7722
            发信人: Idontknow (What's nick), 信区: Python
            标  题: Re: 爬虫内容不全
            发信站: 北邮人论坛 (Tue Mar 13 20:30:34 2018), 站内

            自己写的,用的requests和beautifulsoup

            【 在 brianlee (卖阳光的小阿同) 的大作中提到: 】
            : 用的scrapy吗?把时间间隔调长点试试。就是setting里的AUTOTHROTTLE项。。。我也是新手
            --

            ※ 来源:·北邮人论坛手机客户端 bbs.byr.cn·[FROM: 223.104.3.*]
              返回顶部
              intmain第6楼
              那又怎样
              等级
              用户
              文章
              357
              积分
              7055
              星座
              金牛座
              发信人: intmain (那又怎样), 信区: Python
              标  题: Re: 爬虫内容不全
              发信站: 北邮人论坛 (Tue Mar 13 20:40:30 2018), 站内

              会不会是网站内容是js动态加载的?
              --

              ※ 来源:·北邮人论坛手机客户端 bbs.byr.cn·[FROM: 10.201.19.*]
                返回顶部
                fuxuemingzhu第7楼
                负雪明烛 http://fuxuemingzhu.cn/
                等级
                版主
                文章
                12847
                积分
                37540
                星座
                未知
                发信人: fuxuemingzhu (意涵团·负雪明烛 http://fuxuemingzhu.me), 信区: Python
                标  题: Re: 爬虫内容不全
                发信站: 北邮人论坛 (Tue Mar 13 20:49:10 2018), 站内

                简单试了一下,直接请求连接,返回的是个假网页。试试添加上头部,伪装浏览器。


                In [36]: req.text
                Out[36]: '<html><head><meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"><meta name="renderer" content="webkit"><meta http-equiv="Content-Type" content="text/html; charset=utf-8"></head><script type="text/javascript" src="https://www.lagou.com/utrack/trackMid.js?version=1.0.0.3&t=1520945120"></script><body><input type="hidden" id="KEY" value="63v9rKrFRrRhLyJWpZ0M06nre4tvyl3E"/><script type="text/javascript">JEjCqkrk();</script>页面加载中...<script type="text/javascript" src="https://www.lagou.com/upload/oss.js"></script></body></html>\n'
                --
                ※ 修改:·fuxuemingzhu 于 Mar 13 20:54:22 2018 修改本文·[FROM: 10.108.119.*]
                ※ 来源:·北邮人论坛 http://bbs.byr.cn·[FROM: 10.108.119.*]
                  返回顶部
                  Idontknow第8楼
                  What's nick
                  等级
                  用户
                  文章
                  693
                  积分
                  7722
                  发信人: Idontknow (What's nick), 信区: Python
                  标  题: Re: 爬虫内容不全
                  发信站: 北邮人论坛 (Tue Mar 13 23:58:08 2018), 站内

                  我添加了头部伪装请求,但还是部分内容

                  【 在 fuxuemingzhu (意涵团·负雪明烛 http://fuxuemingzhu.me) 的大作中提到: 】
                  : 简单试了一下,直接请求连接,返回的是个假网页。试试添加上头部,伪装浏览器。
                  : ...................
                  --

                  ※ 来源:·北邮人论坛手机客户端 bbs.byr.cn·[FROM: 223.104.3.*]
                    返回顶部
                    downtown第9楼
                    fgetdapain
                    等级
                    用户
                    文章
                    536
                    积分
                    8482
                    星座
                    水瓶座
                    发信人: downtown (fgetdapain), 信区: Python
                    标  题: Re: 爬虫内容不全
                    发信站: 北邮人论坛 (Fri Mar 16 11:17:44 2018), 站内

                    看页面返回的源码中含有“页面加载中”,猜想应该是一部分数据是通过js加载的请求。可以调试一下这个页面的js源码,里边很可能有数据接口。有的话直接去爬这个数据接口就行了
                    没有的话比较麻烦,可能需要selenium模拟浏览器操作
                    【 在 Idontknow 的大作中提到: 】
                    : 我添加了头部伪装请求,但还是部分内容

                    --

                    ※ 来源:·北邮人论坛 http://bbs.byr.cn·[FROM: 111.203.167.*]
                      返回顶部
                      • 文章数:13 分页:
                        1. 1
                        2. 2
                        3. >>