久久精品国产亚洲高清|精品日韩中文乱码在线|亚洲va中文字幕无码久|伊人久久综合狼伊人久久|亚洲不卡av不卡一区二区|精品久久久久久久蜜臀AV|国产精品19久久久久久不卡|国产男女猛烈视频在线观看麻豆

    1. <style id="76ofp"></style>

      <style id="76ofp"></style>
      <rt id="76ofp"></rt>
      <form id="76ofp"><optgroup id="76ofp"></optgroup></form>
      1. 千鋒教育-做有情懷、有良心、有品質(zhì)的職業(yè)教育機(jī)構(gòu)

        手機(jī)站
        千鋒教育

        千鋒學(xué)習(xí)站 | 隨時(shí)隨地免費(fèi)學(xué)

        千鋒教育

        掃一掃進(jìn)入千鋒手機(jī)站

        領(lǐng)取全套視頻
        千鋒教育

        關(guān)注千鋒學(xué)習(xí)站小程序
        隨時(shí)隨地免費(fèi)學(xué)習(xí)課程

        當(dāng)前位置:首頁  >  技術(shù)干貨  > Python爬蟲之selenium+極驗(yàn)滑塊破解(B站案例)

        Python爬蟲之selenium+極驗(yàn)滑塊破解(B站案例)

        來源:千鋒教育
        發(fā)布人:qyf
        時(shí)間: 2022-09-19 17:34:25 1663580065

          極驗(yàn)給大家簡(jiǎn)單介紹一下:https://www.geetest.com/,在這里給大家提供了智能組合、滑塊驗(yàn)證、點(diǎn)選驗(yàn)證的體驗(yàn)。

        Picture

          滑塊驗(yàn)證就是其中一部分,而像B站、斗魚、簡(jiǎn)書、小米、汽車之家等都是他的客戶。如果大家感興趣也可以去其他網(wǎng)站試試,再次強(qiáng)調(diào)B站我還是很喜歡的

          滑塊驗(yàn)證碼簡(jiǎn)述

          有爬蟲,自然就有反爬蟲,就像病毒和殺毒軟件一樣,有攻就有防,兩者彼此推進(jìn)發(fā)展。而目前最流行的反爬技術(shù)驗(yàn)證碼,為了防止爬蟲自動(dòng)注冊(cè),批量生成垃圾賬號(hào),幾乎所有網(wǎng)站的注冊(cè)頁面都會(huì)用到驗(yàn)證碼技術(shù)。其實(shí)驗(yàn)證碼的英文為 CAPTCHA(Completely Automated Public Turing test to tell Computers and Humans Apart),翻譯成中文就是全自動(dòng)區(qū)分計(jì)算機(jī)和人類的公開圖靈測(cè)試,它是一種可以區(qū)分用戶是計(jì)算機(jī)還是人的測(cè)試,只要能通過 CAPTCHA 測(cè)試,該用戶就可以被認(rèn)為是人類。由此也可知道破解滑塊驗(yàn)證碼的關(guān)鍵即是讓計(jì)算機(jī)更好的模擬人的行為,這也是破解的難點(diǎn)所在。

          配置環(huán)境

          環(huán)境要求:

          安裝Python3

          pip install selenium pillow

          selenium 安裝完成后,下載所選瀏覽器的 webdriver,這個(gè)前面一篇文章已經(jīng)介紹過,不再重復(fù)介紹(注意下載的ChromeDriver版本需與Chrome瀏覽器版本對(duì)應(yīng))

          破解步驟

          思路分析:

          利用selenium進(jìn)入滑塊驗(yàn)證碼頁面,截取所需頁面圖片。

          通過圖片像素對(duì)比分析獲取缺口位置與滑塊移動(dòng)距離。

          機(jī)器模擬人工滑動(dòng)軌跡。

          難點(diǎn)分析:

        Picture(1)

          這類驗(yàn)證碼可以使用 selenium 操作瀏覽器拖拽滑塊來進(jìn)行破解,難點(diǎn)兩個(gè),一個(gè)如何確定拖拽到的位置,另一個(gè)是避開人機(jī)識(shí)別(反爬蟲)。

          首先我們先看看,確定滑塊驗(yàn)證碼需要拖拽的位移距離

          有三種方式

          • 人工智能機(jī)器學(xué)習(xí),確定滑塊位置

          • 通過完整圖片與缺失滑塊的圖片進(jìn)行像素對(duì)比,確定滑塊位置

          • 邊緣檢測(cè)算法,確定位置

          各有優(yōu)缺點(diǎn)。人工智能機(jī)器學(xué)習(xí),確定滑塊位置,需要進(jìn)行訓(xùn)練比較麻煩,所以我們主要看后面兩種。

          對(duì)比完整圖片與缺失滑塊的圖片

          B站的滑塊驗(yàn)證模塊,一共有三張圖片:完整圖、缺失滑塊圖、滑塊圖,都是由畫布canvas繪制出的。類似于:

          下面三張圖:

        Picture(2)

          HTML截圖如下:

        Picture(3)

          只需要通過selenium獲取畫布元素,執(zhí)行js拿到畫布像素,遍歷完整圖和缺失滑塊圖的像素,一旦獲取到差異(需要允許少許像素誤差),像素矩陣x軸方向即是滑塊位置。另外由于滑塊圖距離畫布坐標(biāo)原點(diǎn)有距離,還需要減去這部分距離。最后使用 selenium 拖拽即可。

          部分代碼如下(結(jié)合selenium完成):

          # 屏幕截圖

          def get_screenshot(self):

          """

          獲取網(wǎng)頁截圖

          :return: 截圖對(duì)象

          """

          screenshot = self.browser.get_screenshot_as_png()

          screenshot = Image.open(BytesIO(screenshot))

          x, y = screenshot.size

          screenshot.resize((int(x / 2), int(y / 2)), Image.ANTIALIAS).save('screenshot.png')

          screenshot = Image.open('screenshot.png')

          return screenshot

          # 計(jì)算驗(yàn)證碼圖片所在的位置

          def get_position(self):

          """

          獲取驗(yàn)證碼位置

          :return: 驗(yàn)證碼位置元組

          """

          top = self.browser.execute_script("return document.documentElement.scrollTop")

          print(top)

          img = self.wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'geetest_canvas_bg')))

          print(img)

          location = img.location

          size = img.size

          top, bottom, left, right = location['y'] - top, location['y'] - top + size['height'], location['x'], \

          location['x'] + size['width']

          return (top, bottom, left, right)

          # 該動(dòng)作會(huì)調(diào)用兩次,分別獲取原圖和帶缺口的圖

          def get_geetest_image(self, name='captcha.png'):

          """

          獲取驗(yàn)證碼圖片

          :return: 圖片對(duì)象

          """

          top, bottom, left, right = self.get_position()

          print('驗(yàn)證碼位置', left, top, right, bottom)

          screenshot = self.get_screenshot()

          captcha = screenshot.crop((left, top, right, bottom))

          captcha.save(name)

          return captcha

          # 獲取缺口的尺寸

          def get_gap(self, image1, image2):

          """

          獲取缺口偏移量

          :param image1: 帶缺口圖片

          :param image2: 不帶缺口圖片

          :return:

          """

          left = 60

          print(image1.size[0])

          print(image1.size[1])

          for i in range(left, image1.size[0]):

          for j in range(image1.size[1]):

          if not self.is_pixel_equal(image1, image2, i, j):

          left = i

          return left

          return left

          # 比較兩張截圖的不同

          def is_pixel_equal(self, image1, image2, x, y):

          """

          判斷兩個(gè)像素是否相同

          :param image1: 圖片1

          :param image2: 圖片2

          :param x: 位置x

          :param y: 位置y

          :return: 像素是否相同

          """

          # 取兩個(gè)圖片的像素點(diǎn)

          pixel1 = image1.load()[x, y]

          pixel2 = image2.load()[x, y]

          threshold = 60

          if abs(pixel1[0] - pixel2[0]) < threshold and abs(pixel1[1] - pixel2[1]) < threshold and abs(

          pixel1[2] - pixel2[2]) < threshold:

          return True

          else:

          return False

          邊緣檢測(cè)算法,確定位置

          滑塊基本上是個(gè)方形,通過算法確定方形起始位置即可。

        Picture(4)

          滑塊是方形的,存在垂直與水平的邊,該邊在缺失滑塊圖中基本都是灰黑的。遍歷像素找到基本都是灰黑的邊即可。這種實(shí)現(xiàn)方式會(huì)存在檢測(cè)不出或錯(cuò)誤的情況,使用時(shí)需要換一張驗(yàn)證碼。也可能存在檢測(cè)出的邊是另一條(因?yàn)锽站的滑塊不是長(zhǎng)方形,存在弧形邊),那么需要減去滑塊寬度。

          代碼如下(結(jié)合selenium完成):

          class VerifyImageUtil():

          def __init__(self):

          self.defaultConfig = {

          "grayOffset": 20,

          "opaque": 1,

          "minVerticalLineCount": 30

          }

          self.config = copy.deepcopy(self.defaultConfig)

          def updateConfig(self, config):

          for k in self.config:

          if k in config.keys():

          self.config[k] = config[k]

          def getMaxOffset(self, *args):

          # 計(jì)算偏移平均值最大的數(shù)

          av = sum(args) / len(args)

          maxOffset = 0

          for a in args:

          offset = abs(av - a)

          if offset > maxOffset:

          maxOffset = offset

          return maxOffset

          def isGrayPx(self, r, g, b):

          # 是否是灰度像素點(diǎn),允許波動(dòng)offset

          return self.getMaxOffset(r, g, b) < self.config["grayOffset"]

          def isDarkStyle(self, r, g, b):

          # 灰暗風(fēng)格

          return r < 128 and g < 128 and b < 128

          def isOpaque(self, px):

          # 不透明

          return px[3] >= 255 * self.config["opaque"]

          def getVerticalLineOffsetX(self, bgImage):

          bgBytes = bgImage.load()

          x = 0

          while x < bgImage.size[0]:

          y = 0

          # 點(diǎn),線,灰度線條數(shù)量

          verticalLineCount = 0

          while y < bgImage.size[1]:

          px = bgBytes[x, y]

          r = px[0]

          g = px[1]

          b = px[2]

          if self.isDarkStyle(r, g, b) and self.isGrayPx(r, g, b) and self.isOpaque(px):

          verticalLineCount += 1

          else:

          verticalLineCount = 0

          y += 1

          continue

          if verticalLineCount >= self.config["minVerticalLineCount"]:

          # 連續(xù)多個(gè)像素都是灰度像素,直線,認(rèn)為需要滑動(dòng)這么多

          # print(x, y)

          return x

          y += 1

          x += 1

          完整步驟

          本案例采用的是邊緣檢測(cè)算法。

          步驟一:?jiǎn)?dòng)selenium,獲取驗(yàn)證碼圖片,方便查看預(yù)覽

          from selenium import webdriver

          import time

          import base64

          from PIL import Image

          from io import BytesIO

          from selenium.webdriver.support.ui import WebDriverWait

          def checkVeriImage(driver):

          # 等待畫布加載完畢

          WebDriverWait(driver, 5).until(

          lambda driver: driver.find_element_by_css_selector('.geetest_canvas_bg.geetest_absolute'))

          time.sleep(1)

          # 獲取有缺口的圖片

          im_info = driver.execute_script(

          'return document.getElementsByClassName("geetest_canvas_bg geetest_absolute")[0].toDataURL("image/png");')

          # 得到base64編碼的圖片信息

          im_base64 = im_info.split(',')[1]

          # 轉(zhuǎn)為bytes類型

          im_bytes = base64.b64decode(im_base64)

          with open('./tempbg.png', 'wb') as f:

          # 保存圖片到本地,方便查看預(yù)覽

          f.write(im_bytes)

          image_data = BytesIO(im_bytes)

          bgImage = Image.open(image_data)

          # 計(jì)算offsetx的長(zhǎng)度

          offsetX = VerifyImageUtil().getVerticalLineOffsetX(bgImage)

          # 獲取滑塊按鈕

          eleDrag = driver.find_element_by_css_selector(".geetest_slider_button")

          action_chains = webdriver.ActionChains(driver)

          # 拖動(dòng)滑塊按鈕,注意滑塊距離左邊有 5~10 像素左右誤差

          action_chains.drag_and_drop_by_offset(eleDrag,offsetX-10,0).perform()

          貌似沒有問題了,但是總是出現(xiàn)這句話:拼圖被怪物吃掉了,請(qǐng)重試。這是因?yàn)楸粰z測(cè)到機(jī)器人(爬蟲)操作了。所以我們滑動(dòng)的動(dòng)作要更像我們?nèi)藶榈男袨椤H绾伪荛_人機(jī)的識(shí)別?分析原因是:webdriver.ActionChains(driver).draganddropbyoffset(eleDrag,offsetX-10,0).perform() 拖動(dòng)滑塊動(dòng)作太快了的緣故。當(dāng)然期間宋宋也這樣實(shí)現(xiàn)過:

          action_chains = webdriver.ActionChains(driver)

          action_chains.click_and_hold(slider).perform()

          action_chains.pause(0.2)

          ran = random.randint(1,50)

          action_chains.move_by_offset(xoffset=distance - ran, yoffset=0)

          action_chains.pause(0.6)

          action_chains.move_by_offset(xoffset=ran-10, yoffset=0)

          action_chains.pause(0.5)

          action_chains.move_by_offset(xoffset=4, yoffset=0)

          action_chains.pause(0.4)

          action_chains.move_by_offset(xoffset=5, yoffset=0)

          action_chains.pause(0.6)

          action_chains.move_by_offset(xoffset=1, yoffset=0)

          action_chains.pause(0.6)

          action_chains.release()

          action_chains.perform()

          就是慢點(diǎn)實(shí)現(xiàn)多拖動(dòng)幾次并且加入了休眠,但是這么做還是不會(huì)成功的,仍然會(huì)提示:拼圖被怪物吃掉了,請(qǐng)重試

          稍微改進(jìn)一下(使用了 actionchains.moveby_offset(10,0)用于修正):

          action_chains = webdriver.ActionChains(self.driver)

          # 點(diǎn)擊,準(zhǔn)備拖拽

          action_chains.click_and_hold(source)

          action_chains.pause(0.2)

          action_chains.move_by_offset(targetOffsetX-10,0)

          action_chains.pause(0.6)

          action_chains.move_by_offset(10,0)

          action_chains.pause(0.6)

          action_chains.release()

          action_chains.perform()

          但是驗(yàn)證成功的概率也是挺低的。為了更像人類操作,可以進(jìn)行拖拽間隔時(shí)間和拖拽次數(shù)、距離的隨機(jī)化,于是來個(gè)更加完美版。

          def simulateDragX(self, source, targetOffsetX):

          """

          模仿人的拖拽動(dòng)作:快速沿著X軸拖動(dòng)(存在誤差),再暫停,然后修正誤差

          防止被檢測(cè)為機(jī)器人,出現(xiàn)“圖片被怪物吃掉了”等驗(yàn)證失敗的情況

          :param source:要拖拽的html元素

          :param targetOffsetX: 拖拽目標(biāo)x軸距離

          :return: None

          """

          action_chains = webdriver.ActionChains(self.driver)

          # 點(diǎn)擊,準(zhǔn)備拖拽

          action_chains.click_and_hold(source)

          # 拖動(dòng)次數(shù),二到三次

          dragCount = random.randint(2, 3)

          if dragCount == 2:

          # 總誤差值

          sumOffsetx = random.randint(-15, 15)

          action_chains.move_by_offset(targetOffsetX + sumOffsetx, 0)

          # 暫停一會(huì)

          action_chains.pause(self.__getRadomPauseScondes())

          # 修正誤差,防止被檢測(cè)為機(jī)器人,出現(xiàn)圖片被怪物吃掉了等驗(yàn)證失敗的情況

          action_chains.move_by_offset(-sumOffsetx, 0)

          elif dragCount == 3:

          # 總誤差值

          sumOffsetx = random.randint(-15, 15)

          action_chains.move_by_offset(targetOffsetX + sumOffsetx, 0)

          # 暫停一會(huì)

          action_chains.pause(self.__getRadomPauseScondes())

          # 已修正誤差的和

          fixedOffsetX = 0

          # 第一次修正誤差

          if sumOffsetx < 0:

          offsetx = random.randint(sumOffsetx, 0)

          else:

          offsetx = random.randint(0, sumOffsetx)

          fixedOffsetX = fixedOffsetX + offsetx

          action_chains.move_by_offset(-offsetx, 0)

          action_chains.pause(self.__getRadomPauseScondes())

          # 最后一次修正誤差

          action_chains.move_by_offset(-sumOffsetx + fixedOffsetX, 0)

          action_chains.pause(self.__getRadomPauseScondes())

          else:

          raise Exception("莫不是系統(tǒng)出現(xiàn)了問題?!")

          action_chains.release().perform()

          哇!真的成功啦!完美!

        tags:
        聲明:本站稿件版權(quán)均屬千鋒教育所有,未經(jīng)許可不得擅自轉(zhuǎn)載。
        10年以上業(yè)內(nèi)強(qiáng)師集結(jié),手把手帶你蛻變精英
        請(qǐng)您保持通訊暢通,專屬學(xué)習(xí)老師24小時(shí)內(nèi)將與您1V1溝通
        免費(fèi)領(lǐng)取
        今日已有369人領(lǐng)取成功
        劉同學(xué) 138****2860 剛剛成功領(lǐng)取
        王同學(xué) 131****2015 剛剛成功領(lǐng)取
        張同學(xué) 133****4652 剛剛成功領(lǐng)取
        李同學(xué) 135****8607 剛剛成功領(lǐng)取
        楊同學(xué) 132****5667 剛剛成功領(lǐng)取
        岳同學(xué) 134****6652 剛剛成功領(lǐng)取
        梁同學(xué) 157****2950 剛剛成功領(lǐng)取
        劉同學(xué) 189****1015 剛剛成功領(lǐng)取
        張同學(xué) 155****4678 剛剛成功領(lǐng)取
        鄒同學(xué) 139****2907 剛剛成功領(lǐng)取
        董同學(xué) 138****2867 剛剛成功領(lǐng)取
        周同學(xué) 136****3602 剛剛成功領(lǐng)取
        相關(guān)推薦HOT
        Visual Studio Online和GitHub有什么區(qū)別?

        1.定位不同Visual Studio Online,現(xiàn)更名為Visual Studio Codespaces,是微軟提供的一款在線開發(fā)環(huán)境,允許開發(fā)者在云端進(jìn)行編程和調(diào)試工作。而...詳情>>

        2023-10-15 00:21:42
        什么是域控制器?

        一、域控制器的定義域控制器是指在Windows Server操作系統(tǒng)中部署Active Directory服務(wù)的服務(wù)器。Active Directory是微軟公司開發(fā)的目錄服務(wù),用...詳情>>

        2023-10-15 00:10:28
        深度學(xué)習(xí)模型權(quán)重h5、weights、ckpt、pth有什么區(qū)別?

        1.來源框架不同h5格式通常用于Keras和TensorFlow框架,weights用于Darknet框架,ckpt是TensorFlow框架的一種格式,而pth則主要用于PyTorch框架...詳情>>

        2023-10-15 00:05:17
        大數(shù)據(jù)測(cè)試工程師需要具備哪些技能?

        一、理解大數(shù)據(jù)概念大數(shù)據(jù)測(cè)試工程師需要理解大數(shù)據(jù)的基本概念和原理,如分布式存儲(chǔ)、MapReduce、實(shí)時(shí)計(jì)算等。他們還需要了解如何處理大規(guī)模的...詳情>>

        2023-10-14 23:43:03
        為什么SpringBoot的 jar 可以直接運(yùn)行?

        一、JAR文件的結(jié)構(gòu)與執(zhí)行方式Spring Boot的JAR包是Java Archive的縮寫,它是一種壓縮文件格式,可以將Java項(xiàng)目的類文件、資源文件以及依賴庫等...詳情>>

        2023-10-14 23:01:49
        快速通道
        阳山县| 曲周县| 明星| 湘西| 香港| 灯塔市| 南投县| 嘉兴市| 东兴市| 桐乡市| 会昌县| 陕西省| 丰台区| 湟中县| 祁东县| 柳河县| 繁峙县| 泊头市| 平湖市| 尼玛县| 溧阳市| 高要市| 白山市| 东丰县| 靖安县| 佛学| 同心县| 台北县| SHOW| 定结县| 二连浩特市| 邓州市| 互助| 宁阳县| 杭州市| 衢州市| 娄烦县| 容城县| 阿拉尔市| 岳池县| 曲水县|