Comment commencer avec les données

Crédit: https://www.flickr.com/photos/gleonhard/31254136671/in/photostream/

Nous avons tous entendu le son.

«La ressource la plus précieuse au monde n'est plus le pétrole, mais les données» - The Economist

Peut être. Mais si les données sont comme le pétrole, l'état des données dans de nombreuses organisations ressemble à ceci:

Marée noire de Deepwater Horizon

D'innombrables flux de données sont perdus dans l'océan de données. Demandez à n'importe quel scientifique des données et il vous dira que la chose la plus difficile concernant la science des données est de capturer les bonnes données. Alors, comment commençons-nous?

1. Posez les bonnes questions

La capture de données pour le plaisir est à la fois inutile et longue. Nous devons déterminer nos paramètres, qui doivent être basés sur les objectifs de l'entreprise. Quels sont les produits les plus vendus? Où les utilisateurs abandonnent-ils le processus en plusieurs étapes? Combien d'utilisateurs actifs avons-nous? De nombreuses organisations présentent des mesures à leurs parties prenantes en fonction d'éléments qu'elles sont en mesure de mesurer (par exemple, les revenus), pas nécessairement ce qui correspond le mieux à l'orientation de leur entreprise.

Une fois que nous savons ce que nous essayons de mesurer, nous pouvons déterminer par où commencer la recherche des données et planifier les étapes pour commencer à capturer les données pertinentes.

2. Fournir une culture axée sur les données

Une fois qu'une organisation atteint une certaine taille, elle ne peut plus compter uniquement sur le «sentiment d'intestin». Les décisions doivent être basées sur des données et ces données doivent être disponibles à tous les niveaux.

Les employés peuvent-ils accéder aux données et aux mesures ou sont-ils derrière une multitude de couches de sécurité et de paperasserie? Les employés devraient être autorisés à effectuer l'exploration de données sur des ensembles de données (qui devraient être anonymisés et sécurisés pour respecter la vie privée). Une plate-forme d'analyse en libre-service interne est idéale pour cela. Ce travail doit être ouvert et transparent. Il est impératif de placer le travail sur un tableau de bord et de le partager à l'échelle de l'organisation.

Les organisations doivent fournir un soutien, des encouragements et des ressources pour ce type de travail. Cela signifie du temps et de l'argent, mais une culture axée sur les données favorisera une prise de décision plus éclairée.

3. Embaucher des ingénieurs de données

Il est fréquent que les organisations embauchent des scientifiques des données et non des ingénieurs de données. Les scientifiques des données sont absolument essentiels, ils peuvent trouver des modèles dans les données, prédire les résultats et écrire des modèles qui peuvent apprendre à s'améliorer. La mise en garde est que tout dépend de données de qualité. Des données qui ne peuvent être récupérées que via une infrastructure Big Data, ETL et la programmation de workflows automatisés. C'est généralement le rôle de l'ingénieur des données. Donnez le travail aux personnes qui sont qualifiées pour cela et, plus important encore, aimez le faire.

4. Commencez petit et pas cher

Il peut être très tentant de sauter dans le train du battage médiatique sur les mégadonnées, de créer une équipe de science des données, d'acheter des logiciels d'analyse d'entreprise et de dépenser beaucoup d'argent avec très peu à montrer pour cela. Il y a beaucoup à faire avant de faire un gros investissement. Voici quelques-uns des outils que toute organisation peut utiliser:

  • Librairies d'analyse Javascript telles que Mixpanel ou Amplitude. C'est gratuit jusqu'à un certain nombre d'utilisateurs mensuels.
  • Airflow pour une gestion automatisée du workflow. Créé par Airbnb et incubé à l'Apache Software Foundation, il est open source et un standard de facto pour les ingénieurs de données.
  • Tableaux de bord, graphiques et exploration de données avec Superset (également par Apache). La métabase est également une bonne alternative et les deux sont open source.
  • Édition communautaire Databricks et Kaggle. Les deux peuvent être utilisés gratuitement pour les processus de science des données sur le cloud.
  • Amazon Web Services S3. Pas gratuit mais inclus ici car avec les technologies développées aujourd'hui, il n'est pas toujours nécessaire d'avoir un entrepôt de données. Le stockage est bon marché et des services tels que Databricks, le lac de données MongoDB, AWS Athena vous permettent de lire directement à partir de votre lac de données.

Ces idées fourniront une bonne base à une organisation pour commencer à capturer les bonnes données et à réaliser sa valeur.