Notre boite noire, l'analyse augmentée des données

Définition

La smart data ou l'exploitation intelligente des données est au cœur de l'évolution de notre métier. L'augmentation exponentielle des données et la multiplicité des sources d'informations disponibles nécessitent de recourir à des techniques d'intelligence artificielle pour faire le tri au sein de la masse de données non structurées ou issues du Big Data, pour ne retenir que celles qui sont pertinentes dans un objectif précis.

Il s’agit ainsi :

  • d’améliorer la qualité des données par des traitements automatiques ;
  • de vérifier et recouper les informations disponibles en les comparant notamment avec les données ouvertes ;
  • de découvrir de nouvelles informations pertinentes au sein des données ;
  • de créer des modèles prédictifs pour mieux anticiper ou enrichir automatiquement les données ;

Même si elles sont complexes, ces technologies permettent in-fine d’offrir à l’utilisateur final des outils simples. Il peut ainsi gagner en efficacité dans son travail quotidien, analyser une situation ou augmenter son champ de vision : exploration interactive des données, recherche d’informations pertinentes, alertes automatiques, analyses et visualisations synthétiques, indicateurs temps réels, prédictions.

Chez OctopusMind, cette analyse est au service de la détection des opportunités d’affaires et de l’exploration de l’environnement économique, avec J360. Elle peut également être au service des collectivités et citoyens, comme avec CityZenMap. L’analyse augmentée (augmented analytics) repose sur les technologies du Machine Learning et du traitement automatique du langage naturel pour automatiser la préparation de données, la découverte et le partage de perspectives analytiques. Son principal avantage est de permettre aux analystes de données de gagner beaucoup de temps (voir la synthèse du rapport Gartner « Augmented Analytics Is the Future of Data and Analytics » , publié le 27 Juillet 2017

Les analyses, qui consomment d’ordinaire beaucoup de temps et de ressources, peuvent être fortement simplifiées et accélérées grâce à cette technologie.

Machine Learning, Data mining, traitement du langage naturel, sont au cœur du produit J360

En route pour un tour rapide des technologies de notre "boîte noire" :

Notre matière première est la donnée. Elle va être moissonnée par des robots (web scraping), téléchargée à partir de sources open data , requêtées à partir du web sémantique ou de corpus de références, ou obtenues par production participative (crowdsourcing).

Nous utilisons ElasticSearch pour chercher et analyser, nos propres outils d'« analyse intelligente » des données issus de techniques de Machine Learning et du traitement automatique du langage (NLP). Pour les connaisseurs, voici quelques-uns de nos secrets :

  • analyse des principaux composants (PCA)
  • partitionnement automatique (Data clustering)
  • forêts d’arbres décisionnels (random forests)
  • champs aléatoires décisionnels (CRF) et surtout réseaux de neurones sous de multiples formes (perceptrons multi couches (MLP), réseaux de convolution, auto-encodeurs, réseaux récurrents…)

Une boite à outil très complète et en constante évolution qui ouvre de multiples possibilités sur un jeu de données, qu’il soit structuré ou non :

  • association automatique des données (similarité, recommandation) ;
  • extraction d’informations textuelles sous forme structurée (localisation, données quantitatives, qualifications catégorielles, suppression du bruit) ;
  • catégorisation automatique des données, suivant des axes multiples ;

Tous ces outils, combinés à la puissance de calcul des serveurs actuels et à notre expertise, nous permettent de proposer un service qui augmente la compétitivité de nos utilisateurs.

La performance de nos algorithmes

Suite aux avancées du Deep Learning et de l'IA de nombreux chercheurs s’intéressent, depuis 2015, au «mécanisme d'attention» artificiel dans les réseaux de neurones.

En se basant sur le théorie du “Template matching” des psychologues ont expliqués que le cerveau humain, pour certaines tâches va essayer de faire seulement attention aux informations qui peuvent correspondre à un “task-oriented template”, ce qui nous permet aussi d’identifier le contenu important lors de la lecture d’un texte.

OctopusMind a créé un nouvel algorithme qui reproduit le mécanisme d’attention, en se basant sur des représentations vectorielles et des réseaux de neurones à convolutions.

Nous avons testé notre algorithme sur des bases de test de classification textuelle, les résultats sont très prometteurs. Nous apportons une amélioration significative par rapport aux méthodes actuelles de vectorisation traditionnelles.

Conférence à l'EGC 2019 sur l'analyse sémantique