Инструмент для загрузки и локального сохранения документации с сайта ИТС.
- Парсер документации 1С ИТС
- Автоматическая авторизация на сайте 1С ИТС
- Извлечение структуры документации с учетом иерархии разделов
- Сохранение HTML-страниц с сохранением форматирования
- Загрузка и сохранение изображений
- Создание локального оглавления со ссылками на сохраненные страницы
- Поддержка ограничения количества загружаемых страниц
- Возможность возобновления загрузки с заданного раздела
- Python 3.6 или выше
- Google Chrome или Chromium
- ChromeDriver, соответствующий версии вашего браузера
pip install -r requirements.txtСуществует два способа указания учетных данных для авторизации:
Передайте логин и пароль напрямую через аргументы --username и --password.
Скопируйте файл-шаблон .env.example в .env командой:
copy .env.example .envЗатем откройте файл .env в любом текстовом редакторе и заполните свои учетные данные:
USERNAME=ваш_логин PASSWORD=ваш_парольpython main.py --url https://its.1c.ru/db/edtdoc --login https://login.1c.rupython main.py --url https://its.1c.ru/db/edtdoc --login https://login.1c.ru/login --username 56572-45 --password 5c5ad902 --limit 50 --headless --verbose| Параметр | Обязательный | Описание |
|---|---|---|
--url | Да | URL-адрес документации для загрузки |
--login | Да | URL-адрес страницы входа |
--username | Нет | Логин пользователя (если не указан, берется из .env) |
--password | Нет | Пароль пользователя (если не указан, берется из .env) |
--limit | Нет | Максимальное количество страниц для загрузки |
--headless | Нет | Запуск браузера в фоновом режиме без отображения окна |
--verbose | Нет | Включить подробный вывод отладочной информации в консоль |
После завершения работы программы в директории out будут созданы:
index.html- оглавление документации со ссылками на загруженные страницы- Папки
page_XXXXдля каждой загруженной страницыpage.html- содержимое страницы с корректными ссылками на изображенияmetadata.txt- информация о странице (заголовок, уровень, URL)images/- папка с изображениями для данной страницы
-
Оптимизация скорости: При указании параметра
--limitскрипт оптимизирует процесс разворачивания узлов дерева, что значительно ускоряет работу программы. -
Headless режим: По умолчанию браузер запускается в видимом режиме. Чтобы запустить в фоновом режиме без графического интерфейса, используйте параметр
--headless. -
Возобновление загрузки: Для продолжения загрузки после ошибки или прерывания, вы можете указать конкретный URL страницы, с которой нужно начать:
python main.py --url https://its.1c.ru/db/edtdoc/content/123 --login https://login.1c.ru
-
Использование локальной копии: Для просмотра загруженной документации откройте файл
out/index.htmlв любом современном браузере. В оглавлении доступны фильтры по уровням иерархии и инструменты навигации.
-
Ошибки авторизации: Убедитесь, что указаны правильные учетные данные. Проверьте URL страницы входа (
--login). -
Таймауты при загрузке: Для больших документаций может потребоваться больше времени. Используйте параметр
--limitдля ограничения количества страниц. -
Проблемы с отображением кириллицы: Все файлы сохраняются в UTF-8, проверьте, что ваш браузер правильно определяет кодировку.
-
Несоответствие уровней вложенности: Если в консоли или результатах видны проблемы с определением уровней, используйте параметр
--verboseдля детальной диагностики. -
Изображения не отображаются в документации ERP: Парсер включает специальную обработку для различных типов документации. Для документации ERP реализована дополнительная логика обработки путей изображений с учетом специфики этой документации. Если все же возникают проблемы с отображением:
- Запустите скрипт без параметра
--headlessдля отслеживания загрузки изображений - Проверьте папку
imagesсохраненной страницы на наличие подпапок вида.files - В браузере откройте инструменты разработчика (F12) для анализа ошибок загрузки ресурсов
- Запустите скрипт без параметра