Help, keuzestress: SSIS of Azure Data Factory?

Oké, jullie hebben plannen voor een nieuw datawarehouse project waarbij data verplaatst en getransformeerd moet worden. Maar voor welke tool kies je dan? De cloudservice Azure Data Factory of liever een on-premise versie van SQL Server Integration Services (SSIS)?

Hulp is onderweg want Maikel Smeets, onze Business Intelligence Consultant, neemt je aan de hand van een 4-tal vragen mee naar de beslissing die past bij jouw organisatie.

Wat is SQL Server Integration Services (SSIS)?

SSIS is een flexibele en snelle datawarehouse tool die wordt gebruikt voor het extraheren, integreren en transformeren van gegevens. Het biedt gebruikers een eenvoudige manier om gegevens van de ene bron naar de andere te verplaatsen, waardoor een volledig ETL-ontwerp kan worden gerealiseerd. SSIS heeft vier belangrijke componenten:

  1. Control Flow – het helpt bij het inrichten van de volgorde van alle componenten
  1. Data Flow – hiermee kun je gegevens extraheren, transformeren en vervolgens naar een andere bestemming verplaatsen
  1. Packages – dit is de verzameling van Control en Data Flow
  1. Parameters – dit zijn soorten variabelen. Ze helpen het proces van het doorgeven van runtime-waarden aan SSIS-pakketten te vergemakkelijken

En wat is dan Azure Data Factory?

Azure Data Factory is een cloudservice die wordt aangeboden door het Azure-platform. Het is een volledig beheerd en serverloos data integratieplatform in de cloud waarmee gegevensintegratie uit veel verschillende databronnen mogelijk is. Azure Data Factory is een perfecte oplossing voor het bouwen van hybride ETL, ELT en data-integratiepijplijnen. Het helpt bij het maken en plannen van pijplijnen die gegevens uit verschillende databronnen kunnen halen. Azure Data Factory heeft vier hoofdcomponenten:

  1. Pipeline – bevat de taken die je wilt uitvoeren. Het definieert de volledige workflow, zoals welke taken moeten worden uitgevoerd en in welke volgorde
  1. Activiteit – dit zijn de afzonderlijke stappen binnen een pipeline, waarbij een activiteit een enkele taak uitvoert
  1. Datasets – verzamelde gegevens zijn vereist als invoer voor het ETL-proces. Dit kunnen databases, bestanden of mappen zijn
  1. Linked Services – dit zijn de verbindingsreeksen die je gebruikt om databronnen te verbinden en te authentiseren

Stel jezelf deze vragen bij keuzestress

Zowel SSIS als Azure Data Factory worden gebruikt om data te verplaatsen en te transformeren. SSIS is een volwassen tool die al een zeer lange tijd bestaat. Maar er is niet veel veranderd aan de tool in de laatste releases. Azure Data Factory daarentegen is een cloud-native tool die nog steeds continu in ontwikkeling is.

Als je een keuze tussen de twee moet maken, dan kunnen de volgende vragen je helpen bij het nemen van een beslissing:

  1. Staat het project in de cloud? Zo ja, dan is Azure Data Factory meestal de logische keuze. Zo niet, dan is SSIS waarschijnlijk beter. 
  1. Ga je grote hoeveelheden data verwerken? Zo ja, dan zijn Azure Data Factory en de bijbehorende gegevensstromen die gebruikmaken van de Spark-engine doorgaans meer geschikt voor big data-workloads. 
  1. Heb je al veel geïnvesteerd in SSIS-projecten? In dat geval kun je bestaande projecten naar Azure Data Factory tillen en verplaatsen als je naar de cloud wilt migreren. Je kunt ervoor kiezen om nieuwe projecten in Azure Data Factory of SSIS te maken, afhankelijk van de vaardigheden van jouw team en de wens om nieuwe technologieën te leren. 
  1. Wat voor ontwikkelmachines worden er gebruikt? Voor het ontwikkelen van SSIS-pakketen is Visual Studio vereist, wat betekent dat gebruikt moet worden gemaakt van Windows besturingssysteem. Als jouw bedrijf een ander besturingssysteem zoals iOS, is Azure Data Factory wellicht een geschiktere optie. 

Welke tooling gebruik jij het liefst: SSIS of Azure Data Factory?