La Self Service BI : une forme de projets BI agiles ?

December 16th, 2013 1 comment

A l’occasion des Journées SQL Server (organisées par le GUSS, Groupe des Utilisateurs de SQL Server), j’ai eu l’occasion d’assister à une table ronde revenant sur la mise en place d’une offre de Self Service BI à la Banque de France.

Je vous propose ici un résumé de cet échange ainsi qu’une réflexion avec mon regard de non initié sur le sujet.

Pour animer cette table ronde nous avions en face de nous (de gauche à droite) :

  • Jean-Pierre RIEHL, Responsable de la practice SQL chez Azeo
  • Olivier JACQUEMONT, Adjoint au Responsable du Service Information Management à la Banque de France
  • Pierre-Sébastien MALLERET, Manager Microsoft BI chez Novedia
Avant tout, si comme moi vous n’aviez entendu parler de Self Service BI avant, je vous propose la définition suivante :
La Self Service BI consiste à donner aux utilisateurs la capacité de réaliser leurs propres modèles d’analyses.

Read more…

Décoder les caractères spéciaux sous Linux

December 11th, 2013 No comments

Problématique : Décoder les caractères spéciaux d’un fichier texte sous Linux

Client : Transporteur/Logistique

Contexte technique : Fichiers XML produits par une application Ipad et stockés sous Oracle puis renvoyés vers PowerCenter sous Linux. A chaque étape le character-set utilisé est différent.

Contexte fonctionnel :

Les opérateurs de saisie, répartis dans le monde entier, utilisent  un Ipad pour saisir différents rapports livraison. Ces rapports peuvent contenir une masse importante d’information sous la forme de descriptions longues.

Le résultat dans le DataWarehouse doit être lisible pour en permettre l’analyse et un maximum de caractères spéciaux doivent être conservés ou retranscrits.

Solution : Utilisation de la fonction iconv avec option //TRANSLIT

Read more…

Arrondi d’un intervalle de dates sous Teradata

October 23rd, 2013 No comments

Teradata  nous réserve décidément bien des surprises dès qu’il s’agit de manipuler des arrondis. Nous l’avons vu précédemment sur des arrondis de nombres équidistants de deux bornes, mais c’est aussi vrai lors du calcul d’une différence de dates.

Dans notre cas, une compagnie aérienne souhaite différencier les vols en fonction de leur durée en heures.

Pour cela, on part des Date/heure de départ et arrivée pour un calcul simple : Date/heure Fin – Date-/heure début.

Sous Teradata, on aurait donc  :

SELECT CAST(CAST(‘2013-07-26 18:12:00′ AS TIMESTAMP(0))-CAST(‘2013-07-26 16:10:00′ AS TIMESTAMP(0)) HOUR(4)) AS INTEGER)

— résultat => 2, arrondi de 2 heures et 2 minutes

L’arrondi paraît logique;  il l’est beaucoup moins dans le cas suivant :

SELECT CAST((CAST(‘2013-07-26 18:00:00′ AS TIMESTAMP(0))-CAST(‘2013-07-26 15:58:00′ AS TIMESTAMP(0)) HOUR(4)) AS INTEGER)

— résultat => 3, arrondi de 2 heures et 2 minutes !!

Read more…

Quoi de neuf en BI avec SQL-Server 2014 ?

August 26th, 2013 No comments

Comme le temps passe !
Déjà une nouvelle version pour la plate-forme BI de Microsoft…
Mais que réserve donc la nouvelle mouture 2014 de SQL-Server ?
Et bien finalement pas grand chose. Et c’est tant mieux ! Parce qu’avec la sortie de SQL-Server 2012 l’an dernier et d’Office 2013 cette année, cela nous laissera un peu le temps de respirer.

Comme vous l’avez déjà probablement entendu, Microsoft a annoncé la version 2014 de sa suite BI au TechEd. Mais il a prévenu qu’il n’y aurait aucun changement majeur sur les 3 “pilliers” de sa suite BI (SSIS, SSAS & SSRS) ni même sur PowerPivot, à part quelques corrections de bugs.

Ceci dit, cela n’empêchera pas quelques améliorations notables et autres compléments qui pourraient s’avérer utiles dans vos projets BI.

Les évolutions successives de SQL-Server

Amélioration du “In-Memory”

Cela ne sera une surprise pour personne que la firme de Redmond continue d’investir massivement sur le stockage “en mémoire” tant c’est la tendance ces derniers temps. Voici les deux derniers volets de cette stratégie venant avec SQL-Server 2014 :

  • Nouveau stockage “in-memory” [/Nom de code Hekaton]: Cette nouvelle option de stockage en mémoire permettra d’héberger des tables SQL-Server directement “en mémoire” pour améliorer les performances de restitution. Même si c’est essentiellement pour un usage OLTP, cela pourrait être utile pour des cas précis de BI, comme par exemple pour améliorer les temps de chargement ETL en utilisant des tables de staging “in memory”.
  • Amélioration des indexes “ColumnStore”: C’était la grosse nouveauté de la précédentes mouture de SQL-server en terme d’indexation. On pourra désormais mettre un jour ces indexes, et donc on n’aura plus à supprimer puis recréer les indexes “ColumnStore” en cas d’ajout de données. (Pour un exemple d’utilisation de ces indexes pour améliorer les ETL jetez un œil à ce blog).

“Big data”

Il y a de nombreux échanges sur le sujet “big data”, notamment sur les deux technologies suivantes:

  • HDInsight: Il s’agit du terme marketing de Microsoft pour désigner son offre de type Hadoop pour des serveurs Windows. C’est à dire un framework destiné à faciliter la création d’applications distribuées et “scalables” et permettant aux applications de travailler avec des milliers de nœuds et de très gros volumes de données. En gros tout est distribué, du stockage aux traitements. (Un exemple d’usage sur ce post avec des traitements MapReduce complexes).
  • Polybase: La dernière version de Microsoft Parallel Data Warehouse (PDW) a été enrichie pour permettre de “requêter” des données basées sur du Hadoop, via une  nouvelle technologie appelée Polybase. (Une technologie que David Dewitt de chez Microsoft a décrit en détails lors de la SQL Pass 2012.)

Pour terminer, on annonce la première CTP1 publique dans quelques semaines.

Source :

Arrondi au plus proche sous Teradata

June 30th, 2013 No comments

Arrondir un nombre au plus proche sous Teradata est relativement simple au premier abord.

S’il s’agit d’arrondir à l’entier on pourra utiliser :

SELECT CAST(1.2345 AS DECIMAL(2,0)) –> 1

Pour arrondir à deux décimales, on utilisera :

SELECT CAST(1.2345 AS DECIMAL(5,2)) –> 1.23

Mais la résolution de l’arrondi au plus proche se révèle plus surprenante quand le nombre est équidistant de l’arrondi supérieur et de l’arrondi inférieur.

En effet, contrairement à la plupart des systèmes sur le marché (de Excel à Oracle en passant par SSIS ou MySql), sous Teradata l’arrondi d’un nombre équidistant de ses arrondis inférieurs et supérieurs ne se fait pas systématiquement vers le supérieur mais dépend de la parité du dernier chiffre avant troncature.

Ainsi obtiendra-t-on :

SELECT CAST(1.2345 AS DECIMAL(5,3)) –> 1.234

SELECT CAST(4.5 AS DECIMAL(2,0)) –> 4

Alors que :

SELECT CAST(1.2335 AS DECIMAL(5,3)) –> 1.234

SELECT CAST(3.5 AS DECIMAL(2,0)) –> 4

C’est à dire que si le dernier chiffre avant troncature (en rouge dans l’exemple) est pair , le nombre sera arrondi à l’inférieur. Si ce dernier chiffre est impair, le nombre sera arrondi au supérieur.

En clair, Teradata a pris le parti de répartir l’approximation de l’arrondi équidistant entre le supérieur et l’inférieur.

Conclusion :

Si ce comportement est particulièrement perturbant parce qu’il va à l’encontre de 80% des systèmes sur le marché, il peut être expliqué par le besoin de lisser l’erreur d’approximation lorsque l’on traite une très forte volumétrie de données.

A noter enfin qu’Informatica PowerCenter prend le contrepied en arrondissant les pairs au supérieur et les impairs à l’inférieur.

SAP BPC 10 Net Weaver,

April 25th, 2013 No comments

Il y a tout juste un mois, nous présentions au Restaurant Le Meurice la dernière version de SAP-BPC (Business Planning & Consolidation), sur plateforme NetWeaver, BPC10. Téléchargez la présentation !

Pour X ou Y raisons, vous n’avez pu y participer, et vous le regrettez car :

  • Vous savez qu’en temps de coups durs économiques, la rationalisation de vos processus et de vos coûts passe par une réflexion autour des problématiques d’élaboration budgétaire.
  • Vous êtes équipés BW et/ou êtes sur le point de vous équiper, ou de finaliser votre mise en place de BW.
  • Vous en avez assez de vous “arracher les cheveux” à traiter tous les mois une 100aines de fichiers Excel qui transitent par mail à chaque période de reporting…

Il est temps pour nous de vous faire un bref retour sur cet évènement :

  • Succès,
  • Satisfaction,
  • Positionnement sur le Marché,
  • Crédibilité aussi bien Fonctionnelle que Technique,

=> Nous sommes VOTRE Partenaire, et sommes prêts à vous accompagner !

Et maintenant, vous vous demandez comment engager la discussion ?
Plusieurs options s’offrent à vous :

  • Votre Projet est déjà bien avancé, et vous voulez en savoir plus et avez besoin d’une démo “Live” avec Questions/Réponses ? Contactez-nous !
  • Votre Projet est encore à un stade embryonnaire et avez besoin de plus de réflexion avant d’envisager les “Next Step” plus concrets : nous vous proposons plusieurs rendez-vous en vidéo, à suivre prochainement sur notre Blog Homsys!

Une donnée peut-etre non structurée, mais pas un projet Big Data

April 19th, 2013 No comments

Le Big Data est un concept récent, en constante évolution, territoire propice à de nombreuses explorations et innovations. Ceci dit, il demeure des principes en matière de gestion de données qui peuvent s’appliquer au Big Data. Comme pour tout projet BI et de Datawarehouse, il est crucial de bien comprendre les exigences métiers de la gestion de donnée et d’avoir une stratégie bien définie avant de s’aventurer dans un projet Big Data.

Il est parfois préférable de savoir ce qu’il ne faut pas faire plutôt que ce qu’il faut faire, les pratiques suivantes (les « Worst practices ») sont à éviter si on veut garantir le succès d’un projet BG :

Read more…

Categories: Big Data Tags:

Congrès Big Data Paris: le concept devient réalité!

April 2nd, 2013 No comments

Demain aura lieu le lancement de la 2nde édition du Congrès Big Data Paris  ! Le programme est foisonnant, prouvant ainsi que le stade du concept « buzz » s’est suivi de réalisations concrètes et d’une adoption large du sujet par le monde du Business.

En ce qui me concerne, mes attentes se focalisent autour de 3 thèmes :

  • Des retours d’expérience concrets afin de mesurer à mon niveau les réelles applications projets. J’espère qu’au cours de ces REX, sera également mise en lumière, de manière chiffrée, la valeur ajoutée économique de la réalisation d’un projet Big Data.
  • La compréhension fine des technologies du Big Data et surtout quelles sont les articulations d’architectures techniques possibles pour optimiser une plateforme Big Data.
  • En troisième attente mais pas des moindres, je souhaite pouvoir mieux appréhender, aux termes de cette conférence, ce que le Big Data change à la Business Intelligence ; et ceci autant sur la façon d’aborder les problématiques décisionnelles que sur les aspects évolutions des technologies de la BI.

Vivez Grimm m’accompagnera dans le cadre de nos actions de veille et de montée en expertise et s’interressera particulièrement à :

  • l’évolution de la BI grâce au Big Data. Pourquoi et comment le système de BI actuellement utilisé doit évoluer ? Les intérêts sont-ils uniquement sur les performances ?
  • les projets qui marchent : quels sont-ils ? Pourquoi ont-ils fonctionné ? Et comment sont-ils implémentés ?
  • d’éventuelles comparaisons techniques des technologies.

Les attentes sont donc à la mesure du sujet : Big! Nous partagerons nos découvertes via le fil Twitter Novediagroup.

Avez-vous besoin de Big Data ?

March 28th, 2013 No comments

A moins d’avoir été en hibernation totale les 18 derniers mois dans une contrée lointaine et perdue (et encore !), il est impossible de ne pas avoir subi la déferlante « Big Data ». Bien entendu lorsque vous croisez votre patron qui vous demande, emporté par le buzz, « nous faisons bien nous aussi du Big Data ? », il convient de répondre « oui, c’est un axe majeur de nos réflexions actuelles » .

Au fond de vous persiste toujours probablement une interrogation fondamentale : en ai-je besoin ?
Pour y voir clair, petit rappel sur ce qui se cache donc derrière ces 2 mots dont la traduction littérale ne donne qu’une vague idée. On appelle communément Big Data « une situation où les données ont atteint une telle volumétrie que les technologies conventionnelles n’arrivent plus à les gérer efficacement sur les aspects acquisition, stockage, recherche, partage, analyse et visualisation  des données ».

En bref la Big Data est pour vous si:
•    Vous traitez des Volumes de données importants : on a affaire à des téra, voir pétaoctets de données. Des volumes qui dépassent largement ceux qui sont usuellement traités par les systèmes d’information des entreprises.
•    Vous disposez d’une grande Variété de données: pour atteindre les quantités de données évoquées précédemment, il est aisé d’imaginer qu’elles ne sont pas homogènes. Il s’agit de données pouvant être traitées par les structures connues (BDD, tables, relations, index) mais aussi de données difficilement ou pas du tout gérées par ces structures : audio, vidéo, click stream, fichiers log etc. On parle de données semi-structurées ou non structurées.
•    Vous souhaitez traiter ces données avec une extrême rapidité : la difficulté technique majeure réside dans le traitement rapide de toute cette masse de données.
Si vous ne répondez à aucun de ces critères, un peu de pédagogie et de tact vous permettront de répondre à votre patron « non, il s’agit de merveilleuses technologies mais nous n’en avons vraiment pas besoin ».  Sinon testez, expérimentez, implémentez, vous tirerez de vos données une véritable Valeur ajoutée.

Categories: Big Data Tags:

Extraire un PDF à partir d’un BLOB via Informatica

March 28th, 2013 No comments

Retour d’expérience projet où notre client souhaitait pousser 12 à 14 000 documents PDF de suivi de planning et d’absentéisme vers une application de mailing.

Ces documents étaient stockés en tant que BLOB (Binary Large Object) dans la base Oracle du portail BI dédié au personnel. Afin de pouvoir pousser ces documents vers les intéressés, nous avons utilisé l’ETL en place : Informatica PowerCenter.

Contexte technique : PDF stockés en BLOB sous Oracle 10g, Informatica PowerCenter 8.6.1

Solution : Transformation Java dans le mapping PowerDesigner

Document de Référence :   The Binary Reader and BinaryWriter Java Transformations

Résolution :

Il s’agissait donc de créer un mapping s’appuyant sur la table Oracle contenant le BLOB en question, pour l’extraire vers notre répertoire cible en tant que fichier PDF.

Ce mapping nécessitait au minimum 3 informations :

  • Le nom du fichier à générer
  • Le champ BLOB contenant le PDF
  • Le chemin du répertoire cible, dans notre cas un paramètre du mapping

Mapping d'extraction d'un blob

Mapping d'extraction d'un blob



 
Read more…