Archive

Archive for November, 2012

Elaboration Budgétaire et Reporting financier : les clés pour réussir rapidement votre projet d’élaboration budgétaire !

November 29th, 2012 No comments

Séminaire co-organisé par Cegid, Homsys et Microsoft le jeudi 6 décembre à Paris.

Inscrivez-vous sans tarder… et découvrez comment simplifier et automatiser vos processus de pilotage.

  • Consolidez rapidement vos élaborations budgétaires
  • Structurez des processus simples, évolutifs et administrables
  • Partagez les indicateurs et les alertes, prenez les bonnes décisions

Avec le retour d’expérience de la Mutuelle d’Épargne, de Retraite et de Prévoyance CARAC.

Pour en savoir plus et participer gratuitement au séminaire*, cliquez ici !

*attention, nombre de place limité

Présentation de BIDS Helper

November 12th, 2012 No comments

Dans cet article, je vous présente un  Add-in de Visual Studio qui étend les fonctionnalités de l’environnement de développement BI  SQL Server 2005, 2008, 2008 R2 BI Development Studio (BIDS) et  SQL Server 2012 SQL Server Data Tools (SSDT).

Cet Add-in est gratuit, disponible sur CodePlex à cette adresse  http://bidshelper.codeplex.com/.

Installation :

Téléchargez l’installeur et suivez l’assistant d’installation, après le redémarrage de BIDS, vous remarquerez l’apparition de BIDS Helper dans les produits installés :

 

 Fonctionnalité

BIDS Helper offre énormément de  fonctionnalités. Dans cet article, j’aborderai les fonctionnalités qui me  paraissent être les plus intéressantes  pour  le développement SSAS et SSIS.

SSAS :

Aggregation Manager :

Permet d’ajouter, modifier les agrégations, chercher et supprimer  les agrégations redondantes, tester la performance. Bref, vous pouvez manipuler, comme vous le souhaitez, les agrégations d’un cube.

Pour utiliser le Gestionnaire Agrégation, faites un clic droit sur le cube dans l’Explorateur de solutions, puis, cliquez sur Edit Aggregations

Pour modifier des agrégations, clic-droit sur le groupe d’agrégations que vous voulez modifier, puis cliquez sur Edit…, une interface vous permet de modifier manuellement les agrégations.

Vous pouvez déployer vos modifications à l’aide de Deploy Aggregation Designs. Pour cela, vous devez exécuter la commande ProcessIndex à partir de Management Studio sur le cube après que les modifications d’agrégation ont été déployées.  

 

Deploy MDX Script :

Généralement, pour déployer un script MDX sans traiter le cube, on modifie d’abord les propriétés de dépoilement de notre projet. Pour vous simplifier la tâche,  cette fonctionnalité vous permet en un clic de déployer votre script :

 

 

Ou

Dimension Health Check

Un moyen rapide pour diagnostiquer les valeurs de vos dimensions ainsi que les relations  qui vous posent  des problèmes :

SSIS :

Deploy SSIS Packages :

Cette fonctionnalité  vous permet de déployer vos packages à partir de BIDS sans passer par le Mainifest ni le Wizard d’installation. Pour cela, il suffit de spécifier comment vous souhaitez déployer votre solution dans l’onglet  propriétés du projet -> Deploy (BIDS helper) :

Pour déployer les packages,  clic-droit sur la racine du projet puis Deploy :

Vous pouvez toujours basculer d’un type de déploiement à l’autre  (Simple File Copy, SQL Server Destination, SSIS Package Store, SSIS Package Store (MSDB))  dans l’onglet Deploy (BIDS Helper)

Pour en savoir plus sur les différentes fonctionnalités proposées par BIDS Helper, je vous invite à consulter le site : http://bidshelper.codeplex.com/.

Categories: Divers Tags:

Informatica ILM Test Data Management

November 9th, 2012 No comments

Dans cet article, nous étudierons la solution ILM d’ Informatica – Informatica Test Data Management.

Nous décrirons un process d’utilisation sur un exemple concret.

Nous donnerons à notre sens les points forts et les points faibles du produit.

ILM est un acronyme anglais faisant référence à la gestion du cycle de vie de l’information.

L’ILM se définit comme une réflexion globale sur la gestion rationnelle du patrimoine d’information de l’entreprise en fonction de la valeur de l’information et du coût de son stockage.

Une démarche d’ILM permet d’appliquer des règles de stockage différentes selon la valeur de la donnée à sauvegarder, afin d’adapter au mieux les critères suivants :

  • utilité de la donnée
  • exigences de sécurité : intégrité, confidentialité et disponibilité des données
  • exigences réglementaires sur les données
  • temps d’accès aux données
  • coût de stockage

Dans les années 2004-2005, le marché de l’ILM semble porteur…

L’ILM concerne surtout les grandes entreprises. Toute société engagée dans des processus de certification se voit contrainte de faire appel à l’ILM pour répondre aux obligations de traçabilité et d’archivage légal.

Les fonctionnalités des produits spécialisées ILM sont exclusivement orientées vers des solutions de stockage. Une poignée d’acteurs significatifs se partage le marché avec des solutions complètes de bout en bout (EMC, HP, IBM, Sun, Network Appliance).

Mais, il reste que le marché de l’ILM ne peut se suffire aux seuls projets d’archivage en raison peut être du coût de moins en moins onéreux des périphériques de stockage.

Février 2009 : un nouvel arrivant sur le marché de l’ILM pour une nouvelle vision ?

En Février 2009, Informatica acquiert l’éditeur Applimation (Informia) pour 40 millions de dollars.

La suite ILM d’ Informatica s’affirme en s’étoffant d’une palette d’outils hétéroclites et de nouvelles fonctionnalités.

Aux modules d’archivage Data Archive et Data Validation Option déjà présents dans sa suite ILM viennent s’ajouter une suite de logiciels hétéroclites, qui regroupés ensemble, offre une plate-forme complète d’outils dédiés à la Gestion du cycle de vie de la donnée.

architecture tdm

               source : ILM TDM Student Guide

Avant le rachat d’Applimation (Informia), Data Masking Option (DMO) et Data Validation Option pouvaient être vendus séparément et intégrés dans l’ETL PowerCenter par l’acquisition d’une licence supplémentaire.

Aujourd’hui, leurs acquisitions individuelles ne sont plus permises. Le client doit acheter le pack Informatica ILM Test Data Management (TDM).

Les produits de la suite Applimation (Informia) ont été intégrés dans la suite ILM d’Informatica dans Informatica ILM Test Data Management (voir tableau ci-dessus).

Aujourd’hui Informatica ILM TDM fait partie intégrante de la solution complète d’ILM d’ Informatica.

 

Les composants logiciels d’Informatica ILM Test Data Management (TDM)

Informatica ILM – Test Data Management  est un sous – ensemble de la suite d’Informatica ILM.

Informatica ILM Test Data Management (TDM) est composé de 3 briques logicielles :

  1. Data Subset pour extraire et fournir des échantillons de données à partir d’un modèle relationnel en respectant l’intégrité référentielle
  2. Data Masking : pour masquer des données sensibles  et confidentielles d’un échantillon de données pour les fournir à un tiers
  3. Data Discovery pour explorer et découvrir les champs de tables éligibles au statut de clé primaire, ou de clé étrangère d’un modèle relationnel qui en est dépourvu.

 

Comment cela marche ?

Les services d’ILM Test Data Management sont pilotés par ILM server : c’est le service applicatif qui gère les interactions entre le client ILM TDM (ILM Workbench)  et les services applicatifs de PowerCenter et de Data Explorer

  • Les services Data Explorer vont gérer les opérations de découverte et de profilage des données (Data Discovery)
  • Les services de PowerCenter vont gérer les opérations d’extraction des échantillons de données (Data Subset) et leur masquage (Data Masking)

architecture_tdm_2

Source : User Guide ILM TDM 9.3

 

Comment utiliser Informatica ILM Test Data Management ?

Prenons comme exemple fictif, le cas de l’entreprise WEAVETECO.

Cette société veut mettre en application une politique de sécurité très performante pour masquer les données sensibles lorsqu’elle diffuse des données pour ses environnements de développement et de qualification.

Elle va utiliser les services de la plate – forme d’ILM Test Data Management.

Le projet de la société WEAVETECO (distributeur de contenus vidéo payants) va s’effectuer en 4 étapes distinctes :

  • Data Import Process
  • Data Discovery Process
  • Data Subset Process
  • Data Masking Process

 

Le Data Import Process

La première étape consiste à identifier les données que l’on veut importer.

La société WEAVETECO souhaite extraire de son Datawarehouse l’ensemble des informations concernant les clients et les factures clients.

Un nouveau projet CRM est en cours et elle doit fournir aux équipes de développement et de test, un échantillon de données cohérent et fiable.

Les données nécessaires pour construire cette base CRM s’appuie sur deux Datawarehouse. Ces deux modèles de données sont alimentés par des traitements Informatica PowerCenter. Leurs métadonnées sont donc disponibles à partir du Repository PowerCenter.

Le rapatriement des métadonnées dans Informatica ILM Test Data Management va pouvoir être opéré avec le client ILM Workbench.

  • A partir du client ILM TDM – (ILM Workbench), les métadonnées du Repository PowerCenter relatives aux modèles de données du DataWarehouse Client et du Datawarehouse Factures clients sont importées dans le Repository ILM
  • Le service ILM Server transfert les métadonnées du Repository de PowerCenter dans le Repository ILM.

 Le Data Discovery Process

La seconde étape consiste à identifier les clés primaires ou étrangères potentiels des deux Datawarehouse.

Problème : les deux équipes de développement travaillent sur deux modèles de données différents mais complémentaires. Chaque SSII maitrise parfaitement son modèle de données mais il ne connait pas très bien le modèle de données de l’autre SSII.

  • la SSII A travaille sur le Datawarehouse Clients
  • la SSII B travaille sur le Datawarehouse Comptabilité

Le chef de projet CRM souhaite :

  • identifier les interactions entre les deux Datawarehouse
  • identifier les données confidentielles dites sensibles

La découverte des clés primaires et des clés étrangères va pouvoir être opéré avec l’outil Data Discovery.

  • A partir du client ILM TDM – (ILM Workbench), il est nécessaire de se connecter aux deux Datawarehouse pour récupérer les métadonnées.
  • L’outil détectera les clés primaires ou les clés étrangères potentielles entre les différentes tables.
  • Par exemple : identifier que la clé primaire de la table client du Datawarehouse Client est identique à la clé primaire de la table factures clients du Datawarehouse Comptabilité.
  • Il appartient ensuite au chef de projet CRM de suivre ou non les recommandations de l’outil Data Discoverypour appliquer ou non les clés primaires ou étrangères sur  les tables des deux Datawarehouse.
  • Le service ILM Server a envoyé une requête au Data Integration Service pour extraire le profil des données de chaque table. Le Data Integration Service a ensuite chargé le profilage de chaque table dans le Repository du Profiling Warehouse.

Le Data Subset Process

La troisième étape consiste à créer un échantillon de données regroupant les données des deux Datawarehouse Clients et Comptabilité. Cette dernière étape s’effectue en trois phases.

i.        Le chef de projet CRM doit  identifier les tables des deux Datawarehouse qu’il va devoir sélectionner pour son propre modèle de données CRM.

Exemple : sur la centaine de tables de fait et de dimensions qu’il a pu identifier sur les deux modèles de données avec Data Discovery. Seuls 15 tables de dimensions et trois tables de fait sont nécessaires pour créer son modèle de données CRM.

ii.        Le chef de projet CRM doit appliquer des contraintes d’intégrité sur les colonnes des tables qu’il a pu détecter dans le Data Discovery Process. Il doit ensuite sélectionner un échantillon de données en créant un subset basé sur un critère de sélection.

Exemple : sélectionner les tables des deux modèles  qui constitueront son modèle relationnel CRM final et appliquer un critère de sélection sur la région des clients

iii.        Le chef de projet CRM doit générer un traitement PowerCenter qui va alimenter son modèle relationnel CRM.

La génération des échantillons de données va pouvoir être opéré avec l’outil Data Subset.

     i.        A partir du client ILM TDM – (ILM Workbench), il faut créer une application Test Data Management et y incorporer le modèle de données relationnel CRM dans des entities et des groups.

  • Une entities définit un ensemble de tables reliées entre elles par des liens physiques ou des contraintes logiques (clés primaires et étrangères)
  • Un group est un ensemble de tables n’ayant aucun lien physique entre elles ou pour lequel il n’y aucune règle de Data Masking.

ii.        Data Subset va appliquer un critère de sélection pour extraire un échantillon de données (subset).

iii.        Le chef de projet CRM va implémenter son application Test Data Management en créant un plan à partir duquel il va générer un workflow PowerCenter pour alimenter son modèle cible CRM.

  • L’ILM Server stocke les objets créés avec le Workbench (applications, entities, groups, rules, policies, plans) dans le Repository ILM.
  • Lors de la génération du workflow à partir du plan, le Powercenter  Repository Service se charge de stocker  le workflow et ses composants dans le Repository PowerCenter.
  • Enfin c’est le Powercenter Integration Service qui exécute le workflow pour charger les données dans la base cible.

Le Data Masking Process

La troisième étape consiste à masquer les  informations de l’échantillon de données extrait des deux Datawarehouse.

Certaines informations de l’échantillon de données sont très sensibles. La direction de WEAVETECO souhaite que les données qui seront transmises aux équipes de développement et de qualification soient masquées  afin de conserver une totale confidentialité.

Dans la partie Discovery Process, le chef de projet CRM a appliqué les clés primaires et les clés étrangères sur son modèle de données CRM.

Une autre tâche lui incombe. Il doit anonymiser les données confidentielles. Il note que certaines données sont très sensibles (Ex : n° de client, nom, prénom, n° de carte bleu, n° de téléphone, email de contact, date de naissance, montant des factures, genre du film).

Les difficultés auxquelles il doit faire face sont les suivantes :

  • conserver une intégrité entre les données : son modèle CRM doit respecter une intégrité référentielle et les données doivent garder une homogénéité globale entre elles.
  • propager la clé primaire dans le modèle : la clé primaire de certaines tables se base sur le N° de client et cette donnée est présente dans plusieurs tables du modèle CRM final sous forme de clé étrangère
  • gérer le masquage des champs composés : certains champs dont le N° de client résulte d’une concaténation de plusieurs champs qui sont eux-mêmes anonymisés en amont.

Exemple : le N° de client est la concaténation de la première lettre du prénom, du nom patronymique, des 5 derniers chiffres du téléphone et de la typologie du sexe

Ci-joint un exemple final de masquage de données.

COLONNES Données réelles Données masquées
N° DE CLIENT NTARKOPY524691 CDOVIETRI513892
PRENOM NORBERT CARMEN
NOM TARKOPY DOVIETRI
SEXE1 pour Homme2 pour Femme 1 2
TELEPHONE 01 43 25 24 69 07 34 45 13 89
VILLE PARIS (75) HAUTS DE SEINE (92)
DATE DE NAISSANCE 28 – 01 – 1955 12 – 03 – 1982
N° de C.B. 0123 4567 8901 8765 0145 4578 3201 4545
EMAIL NORBERT.TARKOPY@MAFRANCE.COM CARMEN.DOVIETRI@MAGUITARE.FR
FACTURE 234 EUROS 6 EUROS
NOM DU FILM LES PLAISIRS D’EMMANUELLE LA CONQUETE
GENRE DU FILM EROTIQUE DRAMATIQUE

Le masquage des données va pouvoir être opéré avec l’outil Data Masking.

  • Le client ILM TDM – (ILM Workbench) permet de sélectionner les champs candidats au masquage et de les déclarer comme sensibles (sensitive).
  • Après avoir sélectionné les données dites sensibles, il faut leur appliquer des règles de masquage de données (rules, policies)
  • L’ILM Server stocke les objets créés avec le Workbench (rules, policies) dans le Repository ILM. Lors de la génération du workflow à partir du plan, le Powercenter  Repository Service se charge de stocker  les règles de masquage dans le Repository PowerCenter.

 

Quels sont les points forts et les points faibles d’Informatica ILM Test Data Management ?

Points négatifs :

  • IHM du client ILM Workbench difficile à appréhender en raison des menus   contextuels nombreux
  • Mise à jour et suppression de TDM vers PowerCenter : en cas de nouvelle génération de workflow par ILM, il est fortement conseillé de supprimer l’ensemble des métadonnées PowerCenter déjà présente. ILM TDM n’effectue pas de suppression au préalable. Le processus peut s’avérer fastidieux dans un mode développement évolutif.
  • complexité du modèle de métadonnées de l’ILM Repository

Points positifs :

  • intégration des produits ILM dans PowerCenter
  • communication entre les Repository ILM, PowerCenter et Data Explorer
  • recherche et exploration facile dans les métadonnées ILM
  • richesse des algorithmes de masquage
  • réutilisation facile des règles de masquage au sein de l’entreprise
  • masquage des données par pattern
  • génération des rapports sur les données sensibles
  • génération rapide des traitements PowerCenter à partir d’un plan ILM TDM

Conclusion :

Avec l’arrivée d’Informatica, les produits ILM semblent avoir trouvé un nouveau vecteur de croissance. Le marché de l’ILM ne semble plus cantonné au seul problématique d’archivage ou de stockage.

La contribution judicieuse d’Informatica est d’avoir à mon sens intégrer de nouvelles fonctionnalités à l’ILM comme l’anonymisation des données (Data Masking), l’exploration des données (Data Discover)  ou l’échantillonnage des données (Data Subset).

L’association de ces trois produits hétéroclites dans une suite logicielle compacte a redonné un nouveau souffle à l’ILM en trouvant une véritable synergie.

Articles sources de l’article :

Définition ILM :

Applimation Informia – Enterprise Application Data Management :

Fonctionnalités d’ILM TDM :

Prospectives sur le marché de l’ILM :