Создание SQL-совместимого хранилища в AWS/GCP
Ищу крутого Java инженера с опытом в облаках AWS/GCP.
В существующем приложении мы хотим сделать подсистему работы с данными с синтаксисом SQL на базе данных, лежащих в S3 / Cloud Storage.
Сейчас:
- есть данные в parquet/TSV форматах в облаке
- данные читаем со Spark кластеров, запускаемых по требованию
- Spark надоел: медленный, писать распределенный код сложно, тестить долго и муторно, приходится оптимизировать код
- Высокие косты арендуемого под Spark железа
- Сами задачи для подсчета при этом зачастую могут решены SQL, просто размерность данных побольше классической реляционной базы (десятки гигабайт)
- Намапить на файлы движок AWS Athena (оно же Presto), в GCP - загрузить данные в Big Query
- Получить чистые хорошие таблицы
- Запускать SQL по этим данным
- Что обещает экономию около 100х по сравнению с железом on-demand cluster
Приложение в вебе, написано на Java и Spring.