Question

Au cours des dernières années, le terme « données » semble être devenu un terme largement utilisé sans définition spécifique. Tout le monde semble utiliser l'expression. Même les gens que la technologie ayant une déficience que mes grands-parents utilisent le terme et semblent comprendre des mots comme « violation de données. » Mais je ne comprends pas ce qui fait la « science des données » une nouvelle discipline. Les données ont été la base de la science depuis des siècles. Sans données, il n'y aurait pas Mendel, pas Schrödinger, etc. Vous ne pouvez pas avoir la science sans l'interprétation et l'analyse des données.

Mais il est clair que cela signifie quelque chose. Tout le monde en parle. Alors, que font exactement les gens veulent dire par des données quand ils utilisent des termes comme « big data » et pourquoi est-ce devenu une discipline en elle-même? En outre, si elle est une discipline émergente, où puis-je trouver plus d'informations graves / en profondeur afin que je puisse mieux me renseigner?

Merci!

Était-ce utile?

La solution

on me pose cette question tout le temps, donc plus tôt cette année, j'ai écrit un article ( Qu'est-ce que la science des données? ) basée sur une présentation que j'ai donné quelques fois. Voici l'essentiel ...

Tout d'abord, quelques définitions de la science des données offertes par d'autres:

Josh Wills Cloudera dit un scientifique de données est quelqu'un « qui est mieux à la statistique que tout ingénieur logiciel et mieux génie logiciel que tout statisticien. »

A fréquemment entendu blague est qu'un « scientifique des données »est un analyste de données qui vit en Californie.

Selon Big Data Borat , la science des données est des statistiques sur un Mac.

Drew Conway célèbre Data science Venn , il est l'intersection de Hacking compétences, mathématiques et statistiques connaissances et l'expertise de fond.

Voici une autre bonne définition que je trouve sur le ITProPortal bloguer :

  

« Un scientifique de données est quelqu'un qui comprend les domaines de la programmation, l'apprentissage automatique, l'exploration de données, les statistiques et le piratage »

Voici comment nous définissons la science des données à Altamira (mon employeur actuel):

diagramme de la science des données

Les quatre rangées inférieures sont les enjeux de table - le coût d'admission juste pour jouer le jeu. Ce sont des compétences fondamentales que tous les scientifiques de données doivent obtenir en herbe. Chaque scientifique de données doit être un programmeur compétent . Il ou elle doit aussi avoir une bonne compréhension des mathématiques, des statistiques et de la méthodologie analytique . la science des données et « big data » vont main dans la main, de sorte que tous les scientifiques de données doivent se familiariser avec les cadres de calcul distribué. Enfin, les scientifiques de données doivent avoir une compréhension de base des domaines dans lesquels ils opèrent, ainsi que d'excellentes compétences en communication et la capacité à raconter une bonne histoire avec des données .

Avec ces bases couvertes, l'étape suivante consiste à développer Une expertise profonde dans un ou plusieurs des zones verticales. « La science des données » est vraiment un terme générique pour un ensemble de techniques liées entre elles et les approches adoptées à partir d'une variété de disciplines, y compris les mathématiques, les statistiques, la science informatique et génie logiciel. L'objectif de ces diverses méthodes est de extraire des renseignements exploitables à partir de données de toutes sortes, ce qui permet aux clients de faire un meilleur des décisions basées sur des données . Personne ne peut jamais maîtriser éventuellement tous les aspects de la science des données; Ce faisant, il faudrait plusieurs vies de formation et d'expérience. Les meilleurs scientifiques de données sont donc « en forme de T » individus - qui est, ils possèdent de vastes connaissances dans tous les domaines de la science des données, ainsi que l'expertise profonde dans au moins un. Par conséquent, les meilleurs Les équipes scientifiques de données regroupent un ensemble d'individus avec skillsets complémentaires couvrant l'ensemble spectre .

Licencié sous: CC-BY-SA avec attribution
scroll top