Flyer-DM
diff --git a/‎helpers/parsers_helpers.py‎
Lines changed: 6 additions & 0 deletions b/‎helpers/parsers_helpers.py‎
Lines changed: 6 additions & 0 deletions
diff --git a/‎parsers/__init__.py‎
Lines changed: 1 addition & 0 deletions b/‎parsers/__init__.py‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎parsers/ozon_parser.py‎
Lines changed: 162 additions & 0 deletions b/‎parsers/ozon_parser.py‎
Lines changed: 162 additions & 0 deletions
diff --git a/‎parsers_dataclasses/__init__.py‎
Lines changed: 1 addition & 0 deletions b/‎parsers_dataclasses/__init__.py‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎parsers_dataclasses/ozon_dataclasses.py‎
Lines changed: 43 additions & 0 deletions b/‎parsers_dataclasses/ozon_dataclasses.py‎
Lines changed: 43 additions & 0 deletions
diff --git a/‎test/test_ozon.py‎
Lines changed: 89 additions & 0 deletions b/‎test/test_ozon.py‎
Lines changed: 89 additions & 0 deletions
@@ -1,3 +1,9 @@
 def open_scroller():
+ """Js функция для симуляции прокрутки страницы
+ version = 0.1
+ """
  with open("../helpers/scrollFunc.js", 'r') as file:
  return file.read()
+
+
+LAUNCH_ARGS = ['--disable-blink-features=AutomationControlled']
@@ -1 +1,2 @@
 from parsers.wildberries_parser import Wildberries
+from parsers.ozon_parser import Ozon
@@ -0,0 +1,162 @@
+import re
+import time
+import random
+from typing import Union, Literal, Optional, Tuple
+from playwright.sync_api import sync_playwright
+from playwright._impl._errors import TimeoutError
+from getuseragent import UserAgent
+from helpers.parsers_helpers import *
+from tqdm import tqdm
+
+from parsers_dataclasses import OzonProduct
+
+
+class Ozon:
+
+ __version__ = "0.2.2"
+
+ def __init__(self):
+ """version = 0.2"""
+ self.page = None
+ self.goods_links: set[str] = set()
+ self.parsing_result: list[dict] = []
+ self.scroller = open_scroller()
+ self.base_link = "https://www.ozon.ru"
+
+ def _get_goods_links(self, number_of_goods: Union[Literal['max'], int] = 10) -> None:
+ """Сбор всех ссылок на товары. Либо собирается максимальное количество товаров, либо явно
+ указанное количество (по умолчанию=10).
+ version = 0.1.1
+ """
+ id_paginator_content = "#paginatorContent"
+ tag_href = 'href'
+ href_next_page = "Дальше"
+ selector_next_page = f':text("{href_next_page}")'
+ self.page.wait_for_selector(id_paginator_content)
+ all_products = self.page.query_selector(id_paginator_content)
+ next_page_link = all_products.evaluate_handle('element => element.nextElementSibling').query_selector('a')
+ next_page_link = self.base_link + next_page_link.get_attribute(tag_href)
+ links = set(all_products.query_selector_all('.tile-hover-target'))
+ if number_of_goods == 'max':
+ self.goods_links.update({self.base_link + link.get_attribute(tag_href) for link in links})
+ if self.page.is_visible(selector_next_page):
+ self.page.goto(next_page_link)
+ self._get_goods_links(number_of_goods)
+ else:
+ for link in links:
+ if len(self.goods_links) < number_of_goods:
+ self.goods_links.add(self.base_link + link.get_attribute(tag_href))
+ else:
+ break
+ if len(self.goods_links) < number_of_goods and self.page.is_visible(selector_next_page):
+ self.page.goto(next_page_link)
+ self._get_goods_links(number_of_goods)
+
+ @staticmethod
+ def __parse_prices(prices) -> Tuple[Optional[int], int, Optional[int]]:
+ """Парсинг трёх видов цен из блока с ценами - цена с картой ozon, обычная цена, старая цена
+ version = 0.1.1
+ """
+ empty, digit, spec_symbol = '', r'[^\d]', r'\\u2009'
+ prices = list(map(lambda p: p.inner_text(), prices))
+ if len(prices) > 2:
+ ozon_card_price, price, old_price = prices[1], prices[3], prices[4]
+ ozon_card_price = int(re.sub(digit, empty, re.sub(spec_symbol, empty, ozon_card_price)))
+ price = int(re.sub(digit, empty, re.sub(spec_symbol, empty, price)))
+ if re.search(r'\d+', old_price):
+ old_price = int(re.sub(digit, empty, re.sub(spec_symbol, empty, old_price)))
+ return ozon_card_price, price, old_price # все возможные цены
+ return ozon_card_price, price, None # цены, кроме старой
+ elif len(prices) == 1:
+ return None, int(re.sub(digit, empty, re.sub(spec_symbol, empty, prices[0]))), None # только цена без карты
+ price = int(re.sub(digit, empty, re.sub(spec_symbol, empty, prices[0])))
+ old_price = int(re.sub(digit, empty, re.sub(spec_symbol, empty, prices[1])))
+ return None, price, old_price # цены, кроме цены с картой
+
+ @staticmethod
+ def __parse_score_data(score_data: str) -> Tuple[Optional[float], Optional[int]]:
+ """Парсинг средней оценки и количества отзывов
+ version = 0.1.1
+ """
+ if score_data == 'Нет отзывов':
+ return None, None # нет не средней оценки, не отзывов
+ score = re.search(r'.+(?= •)', score_data)
+ if score: # если есть средняя оценка
+ score = float(score.group(0)) # есть и средняя оценка и количество отзывов
+ reviews = int(re.search(r'(?<=• ).+(?= )', score_data).group(0).replace(' ', ''))
+ return score, reviews
+
+ def _get_good_descr(self, page_link: str) -> None:
+ """Сбор информации о товаре на его странице
+ version = 0.2
+ """
+ href = 'href'
+ reload_button = "#reload-button"
+ seller_selector = 'div[data-widget="webCurrentSeller"]'
+ title_selector = 'div[data-widget="webProductHeading"]'
+ score_data_selector = 'div[data-widget="webSingleProductScore"]'
+ self.page.goto(page_link)
+ time.sleep(random.uniform(.5, 2)) # ожидание загрузки страница анти-бот защиты (для первой ссылки в списке)
+ if self.page.is_visible(reload_button):
+ self.page.click("#reload-button")
+ try: # проверка, что страница не блокируется страницей с ограничением возраста
+ self.page.wait_for_selector(title_selector, timeout=5_000)
+ product = OzonProduct(page_link)
+ product.title = self.page.query_selector(title_selector)
+ product.article = self.page.query_selector('button[data-widget="webDetailSKU"]')
+ product.category = self.page.query_selector('div[data-widget="breadCrumbs"]')
+ prices = self.page.query_selector('div[data-widget="webPrice"]').query_selector_all('span')
+ product.ozon_card_price, product.price, product.old_price = self.__parse_prices(prices)
+ self.page.wait_for_selector(score_data_selector, timeout=5_000)
+ score_data = self.page.query_selector(score_data_selector).inner_text()
+ product.score, product.reviews = self.__parse_score_data(score_data)
+ while not self.page.is_visible(seller_selector):
+ self.page.evaluate(self.scroller)
+ seller_data = self.page.query_selector(seller_selector).query_selector_all('a')
+ product.seller = seller_data[1].inner_text()
+ product.seller_href = seller_data[0].get_attribute(href)
+ product.refund = self.page.query_selector(seller_selector).query_selector_all('li')[-1].inner_text()
+ product.description = self.page.query_selector('div[data-widget="webDescription"]')
+ self.parsing_result.append(product.dict())
+ except TimeoutError:
+ pass
+
+ def find_all_goods(self, keyword: str, number_of_goods: Union[Literal['max'], int] = 10) -> None:
+ """Поиск всех ссылок на товары по ключевому слову
+ version = 0.1.2
+ """
+ empty_selector = """
+ Простите, по вашему запросу товаров сейчас нет.
+ """
+ with sync_playwright() as playwright:
+ browser = playwright.chromium.launch(headless=True, args=LAUNCH_ARGS)
+ context = browser.new_context(user_agent=UserAgent("chrome+firefox").Random())
+ self.page = context.new_page()
+ self.page.goto(self.base_link) # открытие ссылки сайта
+ time.sleep(random.uniform(1, 3))
+ self.page.click("#reload-button")
+ time.sleep(random.uniform(2, 3))
+ self.page.get_by_placeholder("Искать на Ozon").type(keyword, delay=random.uniform(.1, .5))
+ self.page.query_selector('button[aria-label="Поиск"]').click(delay=random.randint(100, 500))
+ try: # проверка, что по запросу ничего не найдено
+ self.page.wait_for_selector(f'text="{empty_selector}"', timeout=3_000)
+ except TimeoutError: # если по запросу найдены товары
+ self._get_goods_links(number_of_goods)
+ finally:
+ browser.close()
+
+ def describe_all_goods(self) -> Optional[list[dict]]:
+ """Создание итогового датасета характеристик всех найденных товаров
+ version = 0.1
+ """
+ if len(self.goods_links): # проверка, что ссылки на товары были найдены
+ with sync_playwright() as playwright:
+ browser = playwright.chromium.launch(headless=True, args=LAUNCH_ARGS)
+ context = browser.new_context(user_agent=UserAgent("chrome+firefox").Random())
+ self.page = context.new_page()
+ for link in tqdm(self.goods_links, ascii=True): # сбор данных всех товаров
+ time.sleep(random.random())
+ self._get_good_descr(link)
+ browser.close()
+ return self.parsing_result
+ return None
@@ -1 +1,2 @@
 from parsers_dataclasses.wildberries_dataclasses import WildberriesProduct
+from parsers_dataclasses.ozon_dataclasses import OzonProduct
@@ -0,0 +1,43 @@
+import re
+from typing import Optional, Union
+from dataclasses import dataclass, field, asdict
+from playwright.sync_api._generated import ElementHandle
+
+
+@dataclass
+class OzonProduct:
+
+ __version__ = "0.1.1"
+ __base_link = "https://www.ozon.ru"
+
+ page_link: str = field(init=True) # ссылка на страницу товара
+ title: str = field(init=False) # название товара
+ article: int = field(init=False) # артикул товара
+ category: str = field(init=False) # категория товара
+ ozon_card_price: Optional[int] = field(init=False) # цена с картой озон
+ price: int = field(init=False) # цена без карты озон
+ old_price: Optional[int] = field(init=False) # цена без скидки
+ score: Optional[float] = field(init=False) # средняя оценка товара
+ reviews: Optional[int] = field(init=False) # количество отзывов на товар
+ seller: str = field(init=False) # продавец товара
+ seller_href: str = field(init=False) # ссылка на другие товары продавца
+ refund: str = field(init=False) # наличие возврата
+ description: Optional[str] = field(init=False) # описание возврата
+
+ def dict(self):
+ """version = 0.1"""
+ return {k: v for k, v in asdict(self).items()}
+
+ def __setattr__(self, key: str, value: Optional[Union[int, float, str, ElementHandle]]):
+ """version = 0.1"""
+ if key == 'title':
+ value = value.query_selector('h1').inner_text()
+ elif key == 'article':
+ value = int(re.sub(r'[^\d]', '', value.query_selector('div').inner_text()))
+ elif key == 'category':
+ value = value.inner_text().replace('\n', '/')
+ elif key == 'description':
+ value = value.inner_text()
+ value = re.sub(r' Показать полностью$', '', re.sub(r'^Описание ', '', value.replace('\n', ' ')))
+ value = None if value == 'Показать полностью' else value
+ super().__setattr__(key, value)
@@ -0,0 +1,89 @@
+import time
+import pprint
+import unittest
+from parsers import Ozon
+from getuseragent import UserAgent
+from playwright.sync_api import sync_playwright
+from helpers.parsers_helpers import LAUNCH_ARGS
+
+
+class TestOzon(unittest.TestCase):
+
+ def setUp(self):
+ self.ozon = Ozon()
+ self.keyword = "гантели разборные"
+ self.error_keyword = "blahblahblah"
+
+ def __test_product(self, link):
+ pp = pprint.PrettyPrinter(indent=4)
+ with sync_playwright() as playwright:
+ browser = playwright.chromium.launch(headless=True, args=LAUNCH_ARGS)
+ context = browser.new_context(user_agent=UserAgent("chrome+firefox").Random())
+ self.ozon.page = context.new_page()
+ self.ozon._get_good_descr(link)
+ pp.pprint(self.ozon.parsing_result)
+ browser.close()
+
+ def test_not_implicit_goods(self):
+ time.sleep(1)
+ self.ozon.find_all_goods(self.keyword)
+ self.assertEqual(10, len(self.ozon.goods_links))
+
+ def test_not_explicit_goods(self):
+ time.sleep(1)
+ self.ozon.find_all_goods(self.keyword, 60)
+ self.assertEqual(60, len(self.ozon.goods_links))
+
+ def test_empty_page(self):
+ time.sleep(1)
+ self.ozon.find_all_goods(self.error_keyword)
+ self.assertEqual(0, len(self.ozon.goods_links))
+
+ def test_many_products(self):
+ time.sleep(1)
+ self.ozon.find_all_goods(self.keyword, number_of_goods=50)
+ pprint.PrettyPrinter(indent=4).pprint(self.ozon.describe_all_goods())
+ self.assertNotEqual(0, len(self.ozon.parsing_result))
+
+ def test_one_product(self):
+ time.sleep(1)
+ self.__test_product('https://www.ozon.ru/product/ganteli-razbornye-nabor-2-ganteli-po-20-kg-shtanga'
+ '-tsement-plastik-metal-obshchiy-ves-40kg-259855059/?__rr=1&advert'
+ '=502zKeKFvgJ7CKGWutSLxYaIXVbUhP1b7fbj5Mq-mqUN'
+ '-jsnmkWXUPoFPL7osUC3zE7rvGb9zKgRHyUiv58TMuCPfO9wgnhVo11OUL7ulJRFDThe9M2WzJQhDov3Fua'
+ '49GtwO6I-7xVJqx8lLe2IrEBQ8iuMw4KFQNxoejkIMLFb9fCLx0joZOTnvtsVVJKzMUkQ6gsZANHVByhWb-'
+ 'n6WhSYKgPZjWOtZ_ykPblSK0mgBfVYbf23RbV0dR6rcWXtFXcTgUV68Q2coMd9ybF1ExhhiMmfNhGK6S3l1'
+ 'f1wpeS1bVwfySYNcYSve1YoN2E5RJgn2vtJKy55z1WPd0YW8esEzhL8KX8GqCXrwlPuw42PGNaATcBBwf6T'
+ 'Ne05SpWg&avtc=1&avte=2&avts=1722161757&keywords=гантели+разборные')
+
+ def test_second_product(self):
+ time.sleep(1)
+ self.__test_product('https://www.ozon.ru/product/polotentse-dlya-litsa-ruk-lavsan-28x38-sm-raznotsvetnyy-3-sht'
+ '-1640509000/?advert=d5Yq1oat619zv0QWYL_BItEmMqvxJ-zPgjFcPJANGCCqp-'
+ 'U573dxV97K59h7QuEMKeuiSwqrkqz89U85-l-u2WINf-3dk73iBUBF3yexrsqeR0EfxpUIuUetNcz-'
+ 'dDw3l1utJBVKm4f65Lia-zOMjyHzB2aC09asAINM4jdRVrG0y_KYNQoMwi1Oyt_r_XJj8kwL2lHireJv_'
+ 'qFGY6KadRuf77DSwc6nYPadP2HBCuSSCRv8TspHJIK8uD4Ia_'
+ 'goIBb2XahOV0cfeTJZufYWD4lUdV1jZYox0cdZWgS-'
+ 'rBawGBqIfraDvZHHYPCSyUPSp5vdfkhnS0VwCnia4sGm8uJf6Zbb4Q6UmXZvm7NFlc5fWEQ&avtc=1&avte='
+ '2&avts=1722247095&keywords=%D0%BF%D0%BE%D0%BB%D0%BE%D1%82%D0%B5%D0%BD%D1%86%D0%B0+'
+ '%D0%BA%D1%83%D1%85%D0%BE%D0%BD%D0%BD%D1%8B%D0%B5')
+
+ def test_third_product(self):
+ time.sleep(1)
+ self.__test_product('https://www.ozon.ru/product/nosovye-platochki-semya-i-komfort-siren-3-sloya-10sht-h3sht-'
+ '1582316998/?asb=JRrLrfQ439zOnGrAbm1QthyYJuEtPs634mnNsJFanP0%253D&asb2=mJsQREIkQwVwMeMk_'
+ 'PPzyp8011kE1aUiUPa9inwldBj4K3oc3sDamJ1Q2skC5uS7TPCxD35PJt9rKzhoXz4gIQ&avtc=1&avte=2&avts='
+ '1722249508&keywords=%D0%BE%D0%B4%D0%BD%D0%BE%D1%80%D0%B0%D0%B7%D0%BE%D0%B2%D1%8B%D0%B5+'
+ '%D0%BF%D0%BB%D0%B0%D1%82%D0%BA%D0%B8')
+
+ def test_fourth_product(self):
+ time.sleep(1)
+ self.__test_product('https://www.ozon.ru/product/floom-bumazhnye-platki-10-sht-1259633693/?asb=%252Bdrc97kz%'
+ '252FCAs6D%252FyyagqoMGYUAQWWjC02N9NT%252Fe4jF4%253D&asb2=S4EEm5UMHgKepW-'
+ 'Xo1iva0kdUnG3x99F6Wypb7tU3q0v_tKM0XoQ0WZE9H1Al_iHprtpK5l73PjmHn_yJOBKfw&avtc=2&avte='
+ '1&avts=1722251068&keywords=%D0%BE%D0%B4%D0%BD%D0%BE%D1%80%D0%B0%D0%B7%D0%BE%D0%B2%D1%'
+ '8B%D0%B5+%D0%BF%D0%BB%D0%B0%D1%82%D0%BA%D0%B8')
+
+
+if __name__ == "__main__":
+ unittest.main()
Original file line number	Diff line number	Diff line change
`@@ -1 +1,2 @@`
`1`	`1`	`from parsers.wildberries_parser import Wildberries`
	`2`	`+from parsers.ozon_parser import Ozon`
Original file line number	Diff line number	Diff line change
`@@ -1 +1,2 @@`
`1`	`1`	`from parsers_dataclasses.wildberries_dataclasses import WildberriesProduct`
	`2`	`+from parsers_dataclasses.ozon_dataclasses import OzonProduct`