Добавить новость
ru24.net
Все новости
Ноябрь
2024

Модуль OCR на python 3.11 +

0
Необходима современная замена tesseract-oct
Необходимо разработать модуль (набор классов) для извлечения текстового слоя с изображения

ОС: Ubuntu 22.04

Требования:
- Предобученные модели для Русского и Английского языка
- Детектирование текстовых блоков (очень круто, если сможет адаптироваться, например, к 2м колонкам, но не обязательно)
- Извлечение текстового слоя с координатами и вероятностью
- Наложение текстового слоя на картинку с генерацией pdf
- Распознавание текста под наклоном
- Распознавание текста не на 1 прямой (например, на сшивки книги листы загибаются)
- Как можно меньше препроцессинга (желательно вообще без)

ВОЗМОЖНОСТЬ ДО ОБУЧЕНИЯ
- До-обучение детектирования текстовых блоков
- До-обучение распознавания символов
- Функционал создания обучающей выборки и возможности ее ручного исправления и корректировки

+ Минимальная инструкция ко всему этому добру



Moscow.media
Частные объявления сегодня





Rss.plus




Спорт в России и мире

Новости спорта


Новости тенниса
WTA

Касаткину представили под флагом Испании во время жеребьёвки турнира WTA в Абу-Даби






Юрий Истомин, Известный по Работе над «Колымой», Выпускает Личный Музыкальный Проект

Ведущая Довлатова: меры безопасности в московском ЖК «Алые паруса» ослабли

Под Красноярском отцу погибших от отравления детей предъявили обвинение

«Мог кто угодно»: звездный адвокат Жорин рассказал о взрыве в ЖК «Алые паруса»