Детекция элементов документов

Презентацию к проекту можно рассмотреть в виде картинок в папке images, там же показаны примеры работы

Суть проекта

Глобальная задача: разработать детектор элементов документа по картинке

Подзадачи:

Создать генератор документов (docx или pdf) для получения обучающей выборки
Сформировать из документов набор данных: картинки и координатную разметку к ним
Обучить модель на этих данных

doc_generator

В целях генерации датасета была создана структура классов, а также консольная утилита для запуска скрипта.

Особенности решения:

Рандомная генерация с убывающей вероятностью появления для каждого класса
Разнообразные формулы
Картинки из датасета в 3000 изображений (ссылка на датасет)
Генерация графиков с помощью matplotlib
Код структурирован по модулям
Эффективная генерация документов с использованием нескольких ядер процессора

layout_extractor

В целях разметки датасета была создана структура классов и консольная утилита.

Особенности решения:

Выделение всех заданных классов с почти стопроцентной точностью
Использование библиотеки PyMuPdf вместо предложенной в техническом задании
Возможность визуализации результата разметки (активируется отдельным флагом при запуске)

Model training

Для решения задачи использовался созданный датасет, а модели дообучались на основе YOLOv10.

Обученные версии моделей:

Detectron2
YOLOv10nano
YOLOv10small
YOLOv10medium

Модель YOLOv10medium, обученная на 100 эпохах, была выбрана по итогам рассмотрения метрик и визуальной оценки.

График Precision & mAP50-95

Веб и контейнеризация

Для использования модели был создан Swagger с помощью FastAPI.

При загрузке изображения Swagger возвращает JSON с разметкой.
Создан Docker-образ для быстрого развёртывания проекта.

Что дальше?

Пространство для улучшений:

Тестирование моделей с более серьёзными параметрами
Использование более мощных вычислительных ресурсов
Расширение генерации, включая многоколоночные абзацы

Итог

По результатам работы было выполнено ТЗ, созданы утилиты для датасета и обучена модель с precision=0.966.

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
api		api
apps		apps
check_visualisations		check_visualisations
images		images
json/3e3f9776-fac5-4f4b-91fa-d1533df03ae2		json/3e3f9776-fac5-4f4b-91fa-d1533df03ae2
pdf		pdf
pdf_images		pdf_images
uploaded_images		uploaded_images
visualizations/2		visualizations/2
.gitignore		.gitignore
Dockerfile		Dockerfile
LICENSE		LICENSE
README.md		README.md
docker-compose.yml		docker-compose.yml
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Детекция элементов документов

Презентацию к проекту можно рассмотреть в виде картинок в папке images, там же показаны примеры работы

Суть проекта

Подзадачи:

doc_generator

Особенности решения:

layout_extractor

Особенности решения:

Model training

Обученные версии моделей:

График Precision & mAP50-95

Веб и контейнеризация

Что дальше?

Итог

About

Releases

Packages

Languages

License

serttyzar/DocumentAnalyzer

Folders and files

Latest commit

History

Repository files navigation

Детекция элементов документов

Презентацию к проекту можно рассмотреть в виде картинок в папке images, там же показаны примеры работы

Суть проекта

Подзадачи:

doc_generator

Особенности решения:

layout_extractor

Особенности решения:

Model training

Обученные версии моделей:

График Precision & mAP50-95

Веб и контейнеризация

Что дальше?

Итог

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages