Я должен выполнить миграцию из одной абстрактной базы данных в другую (например, позволяет сказать, от оракула к Кассандре), и мы хотим использовать Apache Спарк Streaming для этого. Это не простое отображение типов одной БД в другую, но и включает в себя сложные преобразования и проверки. Типичный случай проверить перед валидацией / трансформаций некоторого состояния наших данных в РДУ через ищут некоторые отношения этого значения со значениями в целом (возможно, также разные) набора данных (например, случаи, когда наше значение из РДА используются в некоторых других стол, и мы хотим, чтобы проверить это и выполнить некоторые действия для каждого случая возникновения).
Таким образом, мы имеем возможность использовать Apache Воспламенение с ним делил RDD, чтобы решить эту проблему. И когда мы будем получать такие данные, которые будут нужны внешние проверки его корреляция с другими данными со всей миграционной сферы, то мы будем просто идти к воспламенению (который будет использоваться в качестве temprorary хранения для таких случаев), проверить корреляции и выполнять все то действие с необходимым нашей стоимостью.
Так ли кому-л имеет такой опыт и какие типичные проблемы, мы, возможно, встретиться. Это хорошая практика, чтобы использовать такую архитектуру, или может быть это можно сделать более эффективным и с лучшим дизайном в Спарк?