Конвертация pdf в markdown
Нужно преобразовать pdf файл в markdown файл.
В сам текст вникать не требуется.
В архиве лежит сам pdf и автоматически распознанные файлы разными программами для вашего удобства. *.md файл в каждой папке с картинками.
Мною использовались marker-pdf и pandoc. Если хотите, можете попробовать другие, но практически за всеми нужно исправлять. Особенно картинки, графики и таблицы.
В основном, вся работа сводится к исправлению неточностей и неверно расставленных специальных символов за программами автоматического распознавания, а так же создание скриншотов и вставка их в места, где необходимо.
Особое внимание стоит уделять таблицам, графикам и картинкам. Очень редко они распознаются как надо.
Так как картинки и графики редко хорошо распознаются, потребуется создание скриншотов.
Картинки можно сохранять в любое удобное для вас место в этой папке, главное чтобы пути были относительными (./path/to/image).
Удалять ненужные картинки необязательно, главное чтобы все были нужные и они были в готовом файле markdown.
Содержание документа исправлять никак не надо, его можно вообще удалить. Оно будет сгенерировано потом на основе заголовков.
Если есть где выделения цветом в тексте, его тоже не надо повторять. Достаточно использования курсива, жирного и подчеркнутого текста.
В документах часто встречаются отступы без разрыва строки. В markdown горизонтальные отступы не нужны, достаточно отделять абзацы переносами строк.
В качестве рекомендации могу посоветовать использовать VSCode с расширением Markdown Preview Enhanced для предварительного просмотра.
Полезно знание регулярных выражений для поиска и замены однотипных вхождений, но совершенно не обязательно (особенно для этого документа). Основные моменты мной будут выполнены, а при необходимости я могу их написать самостоятельно для вас.
Пока что это пробный заказ, посмотреть как это будет и как пойдет. Если что-то непонятно, спрашивайте абсолютно про всё. Срок выполнения не так важен, как обратная связь.
Ссылка на архив: https://disk.yandex.ru/d/xVIQfYSO2k91Qw
zip архив не получилось прикрепить сюда, поэтому ссылка на яндекс диск.