Миграция базы данных с помощью Apache Спарк

голоса
0

Я должен выполнить миграцию из одной абстрактной базы данных в другую (например, позволяет сказать, от оракула к Кассандре), и мы хотим использовать Apache Спарк Streaming для этого. Это не простое отображение типов одной БД в другую, но и включает в себя сложные преобразования и проверки. Типичный случай проверить перед валидацией / трансформаций некоторого состояния наших данных в РДУ через ищут некоторые отношения этого значения со значениями в целом (возможно, также разные) набора данных (например, случаи, когда наше значение из РДА используются в некоторых других стол, и мы хотим, чтобы проверить это и выполнить некоторые действия для каждого случая возникновения).

Таким образом, мы имеем возможность использовать Apache Воспламенение с ним делил RDD, чтобы решить эту проблему. И когда мы будем получать такие данные, которые будут нужны внешние проверки его корреляция с другими данными со всей миграционной сферы, то мы будем просто идти к воспламенению (который будет использоваться в качестве temprorary хранения для таких случаев), проверить корреляции и выполнять все то действие с необходимым нашей стоимостью.

Так ли кому-л имеет такой опыт и какие типичные проблемы, мы, возможно, встретиться. Это хорошая практика, чтобы использовать такую ​​архитектуру, или может быть это можно сделать более эффективным и с лучшим дизайном в Спарк?

Задан 18/12/2017 в 09:42
пользователем
На других языках...                            

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more