Создание модели для image captioning и получения качественных эмбеддингов для решения других задач в zero shot в рамках весеннего проекта, ПАДиИИ ВШЭ СПб, весна 2023
Постер с результатами
Для обучения модели достаточно запустить файл train.py, указав нужные параметры в config.json
LLM_train - ноутбуки для перевода англоязычного датасета и дальнейшего обучения на нём языковой модели-декодера.
datasets - всё, что использовалалось для подготовки данных для модели:
clipscore_quality_test- ручной тест качества метрики clipscore и переводчика.coco_translation- перевод caption'ов COCO-2014.flan_translation- перевод CoT части FLAN'a с английского на русский.load_data- загрузка изображений из url'ов датасета Wiki и скачивание COCO-2014wikitext_normalization- нормализация и предобработка caption'ов Wiki датасета и подсчет CLIP score его и COCO.
experiments - все предыдущие эксперименты с моделью и её производными
src - актуальная модель
telegram bot - весь код, связанный с телеграм-ботом. Он использует следующий скрипт в качестве основы для работы с моделью: experiments/inference_clip_gpt2_coco
Вы можете попробовать модель по следующим ссылкам: