Home > Big Data, Divers > Présentation du Machine Learning

Présentation du Machine Learning

Préambule

.

Le machine learning est aujourd’hui au cœur des innovations les plus marquantes des dernières années, de la Google Car au programme Watson d’IBM, les champs d’applications du machine learning sont vastes. Nous verrons par la suite quelques projets phares réalisés ou en cours de réalisation.

Mais d’abord, qu’est-ce que le machine learning ?

Le machine learning (apprentissage automatique en français) est la capacité d’un ordinateur à apprendre sans avoir été explicitement programmé.  « définition d’Arthur Samuel, pionnier du machine learning »

On regroupe sous ce terme un ensemble d’algorithmes qui apprennent comment effectuer certaines tâches : détecter un spam, reconnaître un visage, effectuer des recommandations personnalisées …

Il existe de nombreux algorithmes pour résoudre des problèmes simples. Mais ces algorithmes sont destinés à répondre à une seule problématique, dès lors cela demande de multiplier les algorithmes pour répondre à des besoins complexes.

Les chercheurs en Intelligence Artificielle ont alors eu une idée : plutôt que de résoudre un problème puis de l’implémenter dans un langage informatique quelconque, pourquoi n’apprendrions nous pas à un ordinateur à trouver un algorithme lui-même à partir des données pour résoudre un problème. Le concept de l’apprentissage automatique était né.

Le Machine Learning c’est donc apprendre des données qui nous entourent pour en extraire des tendances et ainsi faire des prédictions sur le futur.

Il a pris son essort avec l’émergence du Big Data, des milliards de données sont désormais facilement à disposition pour alimenter les modèles permettant de construire les algorithmes.

.

3 projets phares réalisés grâce à l’apprentissage automatique

.

Les débuts du machine learning : Garry Kasparov VS IBM

Rarement une partie d’échec n’avait fait autant parler, en 1997 Garry Kasparov perd une partie contre l’ordinateur Deep Blue d’IBM.  Si l’information peut paraître anecdotique, c’est un des premiers coups d’éclat des précurseurs  de l’Intelligence Artificielle.

Dès 1990, Ray Kurzweil annonce qu’un ordinateur sera capable dans la décennie de battre le plus grand champion d’échec en activité, 7 ans plus tard c’est chose faite. Deep Blue calculait alors entre 100 et 300 millions de coups par seconde, il pouvait calculer 12 demi-coups de profondeur en moyenne (un coup est composé d’un demi-coup blanc et d’un demi-coup noir). Les grands maîtres d’échecs Miguel Illescas, John Fedorowicz, Nick De Firmian,Joel Benjamin aidèrent à sa conception, alimentant sa bibliothèque d’ouverture où ils ont notamment intégré toutes les parties de Kasparov.

Le match dura 7 jours avec 6 parties disputées, Deep Blue gagna 2 manches à 1 (3 parties nulles). Les détracteurs de Deep Blue avancent que Kasparov était épuisé au bout du 7ème jours. Biaisé ou non, cette victoire fut surtout une victoire médiatique pour IBM, les exploits de son super ordinateur ont été relayés partout à travers le monde.

 

Le service postal américain

En 2013, l’US postal a envoyé 150 billion de courriers, beaucoup trop pour un triage humain efficace.

A la fin des années 90, seulement 10% du courrier était trié par des machines. Le défi le plus important pour l’automatisation du tri étaient de permettre aux ordinateurs d’interpréter les variations infinies de l’écriture.  L’apprentissage automatique est destiné à résoudre ce type de problématique. Cette apprentissage a été très long pour le tri postal en raison des nombreuses variables qui entrent en jeu.

Même un humain a du mal à lire l’écriture d’un autre humain, il y a des milliers de façon d’écrire un nom ou une adresse, d’où la difficulté énorme à résoudre pour le machine learning.

Comment pouvons-nous enseigner à la machine à lire et comment la machine peut-elle apprendre à s’améliorer au fil du temps ?

–          En alimentant continuellement le catalogue de la machine qui permet de définir les modèles d’apprentissage automatique

–          En améliorant le modèle de détection, une des améliorations qui a permis de franchir un cap a été de constater que le numéro de la rue et le code postal pourraient être facilement reconnus, parce qu’ils sont composés seulement de chiffres, qui pourraient alors être utilisés pour contraindre la rue possible.

En fournissant ce retour, l’US Postal a pu apprendre aux ordinateurs à lire précisément l’écriture humaine. C’est la partie « apprentissage » du machine learning.  Les scientifiques ont créé un modèle compilant toutes les données qu’ils avaient sur les différentes façons d’écrire les adresses par les gens.

Ils adaptèrent le modèle au fur et à mesure que les données entraient, corrigeant les tentatives ratées de lecture de l’écriture humaine, jusqu’à que le modèle aient assez d’historique d’image pour lire l’écriture humaine.

Aujourd’hui, avec l’aide du machine learning, plus de 98% du courrier américain est traité par des machines.

Le système a été vendu aux postes britannique et australienne.

.

Le programme Watson d’IBM

IBM, pionnier dans le secteur de l’intelligence artificielle, a conçu le programme Watson dans le but de répondre à des questions formulées en langue naturelle. Il s’intègre dans un programme de développement plus vaste, le « DeepQA research project » qui a couté à ce jour la modique somme d’un millard de dollar. Le nom « Watson » fait référence à Thomas John Watson qui pris la tête de la société  CTR en 1914 et qui la renomma IBM en 1924.

Watson a participé en février 2011 à 3 épisodes du jeu télévisé Jeopardy (l’équivalent de Questions pour un champion) au terme desquels il a remporté le jeu. Il est capable de comprendre l’énoncé des questions, buzzer pour prendre la main, trouver les réponses en quelques secondes, et, grâce à une synthèse vocale, énoncer les réponses et choisir le thème et le montant de la prochaine question, comme l’exigent les règles du jeu.
Watson est en train de devenir une sorte de super Siri (développé par Apple pour ses mobiles). Côté commercial, il va être mis au service des directions métier (marketing, ventes, IT, gestion, ressources humaines, finance) dans le but de les assister dans leurs prises de décision. Ce programme, baptisé Watson Analytics et disponible dès novembre 2014 en freemium, se singularise par sa faculté à répondre à des questions en langage naturel.

A la façon d’un utilisateur d’iPhone demandant à Siri « quel temps fait-il aujourd’hui ? », un responsable des ressources humaines pourra, par exemple, demander à Watson « quels avantages favorisent le plus l’engagement de mes employés ? », un commercial, « quelles ventes ont le plus de chances d’aboutir ? » ou bien un professionnel du marketing, « quels sont les moteurs essentiels de la vente de mes produits ? ».
Pour y répondre, Watson se nourrira des bases de données renseignées par l’entreprise, et formulera une réponse de manière visuelle. Comme c’est déjà le cas dans l’analytique, le but est de prendre une décision reposant sur la donnée. La promesse d’IBM est d’accélérer encore ce processus en déléguant le travail d’analyse, de comparaison et de synthèse à son programme. Cela signifie aussi que les compétences requises, côté métier, pour réaliser ce genre d’analyse pourraient un jour se limiter à leur plus simple expression.
Pour autant, l’intégration de la base de données à Watson pourrait bien s’avérer complexe et requérir l’intervention de spécialistes de l’activité concernée. En effet, une mauvaise définition du périmètre pourrait noyer le logiciel dans des mises en relation qui ne présenteront jamais aucun intérêt pour l’analyste.

L’un des premiers usages de Watson remonte à 2011 et concerne l’aide au diagnostic médical.

A noter que des entreprises françaises sont en concurrences avec IBM sur ce secteur à l’instar d’Yseop, une société qui revendique 20 ans de recherche et développement.
Ses services sont utilisés par des banques françaises ou des opérateurs de téléphonie mobile pour, dans le premier cas, formuler des recommandations d’investissement aux clients et, dans le second, s’interfacer avec le logiciel de gestion de la relation client et le standardiste, pour aider à la résolution de problèmes.


 

Les méthodes de Machine Learning

.

Une multitude d’approches existe pour répondre aux nombreuses questions et situations auxquelles on peut faire face. On cherche généralement à classifier des objets ou à prédire les futures réalisations d’une mesure à partir d’un certain nombre d’observations.

Dans tous les cas, il y a toujours une phase d’apprentissage où l’algorithme parcourt l’ensemble des données, afin d’ajuster les paramètres qui le caractérisent, qui seront ensuite utilisés pour les prédictions.

Les cas de figure les plus courants sont souvent dans l’une des tâches suivantes :

–  La classification : qui consiste à identifier les classes d’appartenance de nouveaux objets à partir d’exemples antérieurs connus.

–  La régression : qui prédit les valeurs possibles d’une ou plusieurs variables à partir des anciennes valeurs relevées.

–  Le clustering : qui cherche à regrouper des données par similarité, sans avoir d’information au préalable. Il s’agit d’ailleurs d’une forme de classification, la différence étant que les classes ne sont pas identifiées en amont, mais émergent à partir de l’exploration de la structure des données.

Les deux premières appartiennent à la famille des algorithmes d’apprentissage dit supervisé, où le but est de généraliser à partir de ce qu’on connaît déjà, tandis que le dernier cas entre dans la catégorie de l’apprentissage non-supervisé, où le but est plutôt de chercher à faire émerger de l’information qui n’était pas présente au départ.

.

Apprentissages supervisé et non-supervisé

Les méthodes d’apprentissage constituent le cœur du machine learning. Il s’agit de l’objectif principal, dont l’intérêt réside dans sa capacité à apprendre de façon efficace à partir des jeux de données à disposition. Il est primordial d’avoir des données correctement préparées, et les stratégies doivent être soigneusement considérées, sous peine d’obtenir des résultats qui n’ont aucune valeur scientifique ou pratique.

Dans l’apprentissage supervisé, on dispose déjà d’informations sur les données à partir d’observations et de mesures, et l’objectif pour le système consiste à identifier des règles implicites ou explicites pour pouvoir les appliquer à d’autres données, et en faire des prédictions. On peut par exemple essayer de prédire quels patients ont un risque élevé d’avoir un cancer à partir de leurs données démographiques et d’informations sur leur mode de vie et leur régime alimentaire, ou encore identifier les emails qui sont des spams à partir du contenu et des informations sur les expéditeurs, pour les isoler des emails légitimes.

Dans le cas non-supervisé, il faut se contenter de données brutes. Il faut simplement pouvoir définir des règles de comparaison et des classes de similarité. Les algorithmes cherchent ensuite à identifier les données qui forment des structures ou des groupes, en étant plus proches par exemple que ce qu’on attendrait de données distribuées aléatoirement. Cette approche devient non seulement intéressante, mais quasiment incontournable lorsqu’on essaye de classer des données qui se rangent naturellement dans un grand nombre de catégories. Il est inimaginable par exemple de devoir marquer à la main l’ensemble des catégories possibles pour un corpus de textes, ou l’ensemble des objets qui peuvent apparaître dans un groupe d’images de façon exhaustive. Les catégories possibles se comptant ici facilement en plusieurs milliers.


 

Machine Learning et Big Data

.

Le concept de Machine Learning existe depuis 15 ans mais il prend son envol depuis quelques années grâce à l’avènement du Big Data et aux progrès réalisés en mathématiques fondamentales et en informatiques distribuée (arrivée sur le marché de Hadoop, plateforme open source d’algorithmes distribués).

Par exemple, l’interface de jeu Kinect de Microsoft a été conçue après l’enregistrement de milliards de données de positions du corps, ce qui a permis de modéliser correctement un être humain en mouvement en 32 segments. Puis ce modèle a été utilisé pour déterminer la probabilité que le corps du joueur fasse tel ou tel geste. A partir de capteurs, on reçoit des pixels et l’on en déduit leurs rattachements à l’un des 32 segments afin de reconstituer la position probable du corps.

Tout le Machine Learning est basé sur des calculs de probabilité établis sur un grand nombre de données. On utilise pour ce faire des algorithmes de tous types, par exemple ceux de clusterisation dans le cadre d’un projet de “recommandation de films” pour créer des classes d’utilisateurs à partir de leurs notes mises sur internet. Les films notés sont rattachés à des classes et lorsqu’une personne demande conseil sur Internet, elle est rapidement orientée vers une classe donnée en fonction de son profil pour obtenir une liste de films correspondant à ses goûts.

Le machine learning donne donc tout son sens au Big Data qui grâce à ses 3V donne un nouvel élan à l’apprentissage automatique.

Les 3V du Big Data :

–          Volume de données

–          Variété des données : structurées, non structurées, semi-structurées

–          Vélocité des données, contribuant ainsi à la création de données et d’analyses en temps réel


Un avenir prometteur

.

Les systèmes qui reposent sur du machine learning ne fonctionnent pas par magie, et des limites fondamentales existent quant à leurs capacités et ce qu’il est possible d’obtenir comme résultat. De plus leur implémentation requiert un certain savoir-faire, pour rendre les données exploitables par une machine.
Ils ont cependant largement montré leur intérêt et leur valeur, et c’est pour cette raison qu’on les retrouve de plus en plus dans notre quotidien, souvent de façon très transparente, et de nombreuses bibliothèques abaissent la barrière d’entrée et les rendent accessibles à un plus grand nombre d’utilisateurs.

Les usagers finaux de ces systèmes sont de plus en plus nombreux, très souvent sans même en avoir conscience. De nombreuses activités régulières profitent avantageusement du machine learning.

On peut parier sans prendre trop de risques que ces systèmes vont se développer encore plus et profiter des bonds technologiques, lorsque des groupes comme la NASA ou Google décident d’investir massivement dans des recherches encore jeunes mais prometteuses, comme le deep learning ou l’ordinateur quantique.

Categories: Big Data, Divers Tags:
  1. No comments yet.
  1. No trackbacks yet.


8 × two =