Мы в Telegram
Добавить новость
ru24.net
Работа
Апрель
2021

Разработать(найти и запустить алгоритм форматирования текста)

0

Задание


Предыстория

В рамках одного пилота мы собираем кейсы на английском языке и добавляем их в Airtable.

Примеры кейсов


Когда мы добавляем описание в поле Description,

  1. Для веб страниц мы используем airtable web clipper, который по непонятной причине урезает форматирование (хотя в описании сказано, что он сохранит форматирование) и текст становится сплошняком - пример:
  2. Для pdf файлов мы просто копируем и вставляем и текст начинает переноситься вот так . Мы пробовали готовый экстрактор данных для PDF, который интегрируется с Airtable, но он использует вот этот инструмент для извлечения, который дает вот такой печальный результат

Проблемы

  1. Текст обрезается и переносится на новую строку
  2. Для того, чтобы отформатировать текст - потребуется очень много человеческих усилий, в том числе, потому что в самом airtable это неудобно делать
  3. Если текст не форматировать, то он нечитаемый и клиентам/пользователям будет сложно быстро вычленить смысл
  4. Мы планировали использовать перефразатор, чтобы удалить права на контент и не запрашивать все время право на использование кейса, но, если текст в таком виде, то перефразатор не сработает (предложение разбивается по середине и перестает восприниматься перефразатором, как единое целое)




Moscow.media
Частные объявления сегодня





Rss.plus




Спорт в России и мире

Новости спорта


Новости тенниса
WTA

WTA огорчила Елену Рыбакину после турнира в Мадриде






Трек группы "Моя Мишель" для Москвы и Благовещенска презентовали в Сети

Суд арестовал главу Восточно-Арктической нефтегазовой корпорации Неверова

В число лучших российских городов по качеству жизни не попал Воронеж

Президент Киргизии Жапаров решил приехать на парад Победы в Москве