Posted on Jul 23
fuck CF 基类（Python）

import asyncio import re import logging from enum import Enum from retry import retry from datetime import datetime from typing import Optional from patchright.async_api import async_playwright, Frame from patchright.async_api import Error as PlaywrightError from utils.redisdb import redis_cli from config import env, config from other_spider.scheduler import scheduled_task from utils.spider_failed_alert import ErrorMonitor from other_spider.spug.gmgn.frankie.config import target_address logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(name)s - %(levelname)s - %(message)s') logger = logging.getLogger('Fuck CF') """ 基于https://github.com/Xewdy444/CF-Clearance-Scraper改造 """ class ChallengePlatform(Enum): """Cloudflare challenge platform types.""" JAVASCRIPT = "non-interactive" MANAGED = "managed" INTERACTIVE = "interactive" class FuckCF: """ 从GMGN获取热门代币的前100holders，以及其标签，以及其历史战绩 """ spider_name = 'Fuck CF Base Class' author = 'drake shi' def __init__(self): self.redis_cli = redis_cli() self.proxy=config.PROXY_FOR_PLAYWRIGHT self._timeout = 30 # 数据是否采集成功  self.task_holders_status = True async def on_response(self, response): """ 拦截响应 数据结构 gmgn.json """ if not response.ok: return chain = '' if 'bsc' in response.url: chain = 'bsc' elif 'sol' in response.url: chain = 'sol' elif 'base' in response.url: chain = 'base' else: pass def _get_turnstile_frame(self, page) -> Optional[Frame]: """ Get the Cloudflare turnstile frame. Returns ------- Optional[Frame] The Cloudflare turnstile frame. """ frame = page.frame( url=re.compile( "https://challenges.cloudflare.com/cdn-cgi/challenge-platform/h/[bg]/turnstile" ), ) return frame async def cookies(self, page) -> Optional[str]: """The cookies from the current page.""" cookies = await page.context.cookies() if not cookies: return None for cookie in cookies: if cookie["name"] == "cf_clearance": return cookie["value"] return None async def detect_challenge(self, page) -> Optional[str]: """ Detect the Cloudflare challenge platform on the current page. Returns ------- Optional[ChallengePlatform] The Cloudflare challenge platform. """ html = await page.content() for platform in ChallengePlatform: if f"cType: '{platform.value}'" in html: return platform.value return None async def solve_challenge(self, page) -> None: """Solve the Cloudflare challenge on the current page.""" verify_button_pattern = re.compile( "Verify (I am|you are) (not a bot|(a )?human)" ) verify_button = page.get_by_role("button", name=verify_button_pattern) challenge_spinner = page.locator("#challenge-spinner") challenge_stage = page.locator("#challenge-stage") start_timestamp = datetime.now() cookies = await self.cookies(page) challenge_type = await self.detect_challenge(page) while ( cookies is None and challenge_type is not None and (datetime.now() - start_timestamp).seconds < self._timeout ): if await challenge_spinner.is_visible(): await challenge_spinner.wait_for(state="hidden") turnstile_frame = self._get_turnstile_frame(page) if await verify_button.is_visible(): await verify_button.click() await challenge_stage.wait_for(state="hidden") elif turnstile_frame is not None: await page.mouse.click(210, 290) await challenge_stage.wait_for(state="hidden") await page.wait_for_timeout(250) async def detect(self, page): """ 破解CloudFlare """ clearance_cookie = await self.cookies(page) if clearance_cookie is None: challenge_platform = await self.detect_challenge(page) if challenge_platform is None: logging.error("No Cloudflare challenge detected.") return logging.info(f"Solving Cloudflare challenge [{challenge_platform}]...") try: await self.solve_challenge(page) except PlaywrightError as err: logging.error(err) async def run_local(self, proxy=None): async with async_playwright() as p: # 必须得是有头浏览器，否则过不了Cloudflare  launch_data = { "headless": False, "proxy": proxy, "args": [ '--disable-blink-features=AutomationControlled', '--disable-dev-shm-usage', '--no-first-run', '--no-default-browser-check', '--disable-infobars', '--disable-extensions', '--disable-features=VizDisplayCompositor' ] } # user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36"  browser = await p.chromium.launch(**launch_data) for chain in self.address_list: addresses = self.address_list[chain] for address in addresses: # 每个代币地址都是一个无恒模式，结束则销毁新建  context = await browser.new_context() context.set_default_timeout(self._timeout * 1000) page = await context.new_page() # 监听请求流  page.on('response', self.on_response) # 每个代币地址最少会再次发起150个左右的请求  logger.info(f'准备处理代币地址 {address} ...') # 对每一个目标链接初始化该状态  self.task_holders_status = False # url = f'https://www.gmgn.ai/{chain}/token/{address}?tab=holders'  url = f'https://www.gmgn.ai/vas/api/v1/token_holders/{chain}/{address}?from_app=gmgn&tz_name=Asia%2FShanghai&app_lang=en-US&os=web&limit=100&cost=20&orderby=amount_percentage&direction=desc' # 访问目标地址  await page.goto(url) # 过反爬，如果不加就是被block的状态  await page.reload() await asyncio.sleep(3) await self.detect(page) # 初始化 单个代币的任务结束则清空  self.wallet_token_info_jobs = [] await context.close() # 等待页面加载完成  # await page.wait_for_load_state('networkidle')  logger.info('关闭浏览器') await browser.close() async def run_aws(self): """ 在AWS服务器启动 """ proxy = self.proxy from pyvirtualdisplay import Display with Display(): await self.run_local(proxy) def check_success(self): """ 校验爬虫是否拿到数据 """ if not self.task_holders_status: logger.error('采集失败') raise Exception('爬虫没有采集到数据') @ErrorMonitor(spider_name, author) @retry(tries=3, delay=3) def task(self): if env == 'local': asyncio.run(self.run_local()) else: asyncio.run(self.run_aws()) # 10分钟执行一次  @scheduled_task(start_time=None, duration=10*60) def run(self): """ 通过采集代币详情页采集top holders标签信息和钱包详情页信息 线上加代理 """ self.address_list = target_address() self.task()
DEV Community

fuck CF 基类（Python）

Top comments (0)