formations/cesi/intro_big_data/presentation/slides.md

183 lines
3.4 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

<!-- $theme: default -->
<style>pre, table { font-size: 0.6em !important; }</style>
# Introduction au "Big Data"
William Petit - S.C.O.P. Cadoles
---
<!-- page_number: true -->
---
## Vocabulaire
---
### Qu'est ce qu'une "donnée" ?
> Une donnée est une description élémentaire dune réalité. Cest par exemple une observation ou une mesure. [...]
>
> Elle est dépourvue de tout raisonnement, supposition, constatation, probabilité.
>
> -- [Wikipédia](https://fr.wikipedia.org/wiki/Donn%C3%A9e)
**Exemples**
- Température = 25°C
- Total de personnes dans la salle = 10
---
### Qu'est ce qu'une "information" ?
> Une information est une interprétation contextualisée d'une donnée ou d'un ensemble de données. Elle est porteuse de "sens".
**Exemple**
- Température = 25°C -> Il fait chaud
- Total de personnes dans la salle = 10 -> C'est un petit groupe
---
## Contexte et définitions
---
### Historique
- Première mention du terme en 1997
- Issue des réflexions liées à l'explosion de la génération et l'usage des données
- Une définition aux contours flous
---
### 3 caractéristiques de la problématique
---
### Volume
<p style="text-align:center">
<img style="width:80%" src="img/The-total-amount-of-data-generated-on-earth-exceeded-one-zettabyte-in-2010It-is.png">
</p>
[Zaslavsky, Arkady & Perera, Charith & Georgakopoulos, Dimitrios. (2012). Sensing as a Service and Big Data. CoRR, abs/1301.0159.](https://www.researchgate.net/publication/234017925_Sensing_as_a_Service_and_Big_Data)
---
### Vitesse
---
### Variété
---
## Aperçu technique des solutions
---
### Stockage des données
---
### Présentation d'Apache Hadoop et HDFS
---
### Traitement des données
---
#### Le modèle "MapReduce"
---
### Présentation d'Apache Spark et Apache Storm
---
## Bases de données "NoSQL"
---
### Base de donnée orientée clé/valeur
---
### Base de données orientée document
---
### Base de données orientée colonne
---
### Base de données orientée graphe
---
#### Le concept de "triplet"
Un triplet est une structure de données pouvant être représenté sous la forme `(sujet, prédicat, objet)`.
Un corpus de triplets permet de représenter un graphe orienté.
Exemple:
`<William>` `<kind_of>` `<Person>`
`<William>` `<work_for>` `<Cadoles>`
`<Cadoles>` `<kind_of>` `Entreprise>`
etc...
---
#### Exemple avec le projet Cayley
---
#### Exercice
Soit Jean, Silvia, Camille, Charlie et Nicolas cinq membres d'un même réseau social.
- Jean est ami avec Silvia.
- Silvia est amie avec Jean.
- Camille est ami avec Charlie.
- Charlie est amie avec Jean.
- Nicolas est ami avec Camille.
- Nicolas est ami avec Silvia.
Les relations sont évidemment bidirectionnelles.
Chaque personne a également les attributs suivants:
- Un age
- Un plat préféré
---
##### Consignes
1. Représenter sous forme de triplets ces 4 entités et leurs relations d'amitiés respectives.
2. Écrire la requête (Gizmo) permettant de récupérer la liste des plats préférés d'une personne.
3. Écrire la requête (Gizmo) permettant de récupérer la liste des "amis d'amis" d'une personne.
4. Écrire la requête (Gizmo) permettant de récupérer la liste plats préférés partagés avec des "amis d'amis".
[Documentation de l'API Gizmo](http://localhost:64210/docs/GizmoAPI)
---
## Exploitation des données et cadre légal
---
### Qu'est ce qu'une données à caractère personnel ?
---
### Le RGPD