Создание SQL-совместимого хранилища в AWS/GCP

28.05.2022 00:48

Привет!
Ищу крутого Java инженера с опытом в облаках AWS/GCP.
В существующем приложении мы хотим сделать подсистему работы с данными с синтаксисом SQL на базе данных, лежащих в S3 / Cloud Storage.

Сейчас:

есть данные в parquet/TSV форматах в облаке
данные читаем со Spark кластеров, запускаемых по требованию
Spark надоел: медленный, писать распределенный код сложно, тестить долго и муторно, приходится оптимизировать код
Высокие косты арендуемого под Spark железа
Сами задачи для подсчета при этом зачастую могут решены SQL, просто размерность данных побольше классической реляционной базы (десятки гигабайт)

Чего хочется:

Намапить на файлы движок AWS Athena (оно же Presto), в GCP - загрузить данные в Big Query
Получить чистые хорошие таблицы
Запускать SQL по этим данным
Что обещает экономию около 100х по сравнению с железом on-demand cluster

Для этой амбициозной цели нужны руки и хорошие мозги. Длина проекта - около 3 месяцев.
Приложение в вебе, написано на Java и Spring.

Moscow.media

Частные объявления сегодня

Rss.plus

Все новости за 24 часа

Создание SQL-совместимого хранилища в AWS/GCP

Новости спорта

"Хоть здесь я впереди": Зверев пошутил над Синнером после поражения в финале АО

Липецк впервые принял чемпионат ЦФО по армрестлингу

Как Владимир Шурочкин продал жильё и сделал из дочери звезду сцены, а она всё перечеркнула

«Росизо» представит в Москве выставку «Формы и образы. Лаки»

Великобритания и Канада ввели санкции против Белоруссии после выборов