diff --git a/cesi/intro_big_data/presentation/img/The-total-amount-of-data-generated-on-earth-exceeded-one-zettabyte-in-2010It-is.png b/cesi/intro_big_data/presentation/img/The-total-amount-of-data-generated-on-earth-exceeded-one-zettabyte-in-2010It-is.png new file mode 100644 index 0000000..87514e9 Binary files /dev/null and b/cesi/intro_big_data/presentation/img/The-total-amount-of-data-generated-on-earth-exceeded-one-zettabyte-in-2010It-is.png differ diff --git a/cesi/intro_big_data/presentation/slides.md b/cesi/intro_big_data/presentation/slides.md index f892b17..4f98cbd 100644 --- a/cesi/intro_big_data/presentation/slides.md +++ b/cesi/intro_big_data/presentation/slides.md @@ -9,18 +9,124 @@ William Petit - S.C.O.P. Cadoles --- -## À la recherche d'une définition ? +--- + +## Vocabulaire --- -## Historique +### Qu'est ce qu'une "donnée" ? + +> Une donnée est une description élémentaire d’une réalité. C’est par exemple une observation ou une mesure. [...] +> +> Elle est dépourvue de tout raisonnement, supposition, constatation, probabilité. +> +> -- [Wikipédia](https://fr.wikipedia.org/wiki/Donn%C3%A9e) + +**Exemples** +- Température = 25°C +- Total de personnes dans la salle = 10 --- -## Facettes +### Qu'est ce qu'une "information" ? + +> Une information est une interprétation contextualisée d'une donnée ou d'un ensemble de données. Elle est porteuse de "sens". + +**Exemple** +- Température = 25°C -> Il fait chaud +- Total de personnes dans la salle = 10 -> C'est un petit groupe + +--- + +## Contexte et définitions + +--- + +### Historique + +- Première mention du terme en 1997 +- Issue des réflexions liées à l'explosion de la génération et l'usage des données +- Une définition aux contours flous + +--- + +### 3 caractéristiques de la problématique + +--- + +### Volume + +

+ +

+ +[Zaslavsky, Arkady & Perera, Charith & Georgakopoulos, Dimitrios. (2012). Sensing as a Service and Big Data. CoRR, abs/1301.0159.](https://www.researchgate.net/publication/234017925_Sensing_as_a_Service_and_Big_Data) + +--- + +### Vitesse + +--- + +### Variété + +--- + +## Aperçu technique des solutions --- ### Stockage des données ---- \ No newline at end of file +--- + +### Présentation d'Apache Hadoop et HDFS + +--- + +### Traitement des données + +--- + +#### Le modèle "MapReduce" + +--- + +### Présentation d'Apache Spark et Apache Storm + +--- + +## Bases de données "NoSQL" + +--- + +### Base de donnée orientée clé/valeur + +--- + +### Base de données orientée document + +--- + +### Base de données orientée colonne + +--- + +### Base de données orientée graphe + +--- + +#### Exemple avec le projet Cayley + +--- + +## Exploitation des données et cadre légal + +--- + +### Qu'est ce qu'une données à caractère personnel ? + +--- + +### Le RGPD diff --git a/cesi/intro_big_data/ressources/bibliographie/liens.md b/cesi/intro_big_data/ressources/bibliographie/liens.md index 146560e..7a0775d 100644 --- a/cesi/intro_big_data/ressources/bibliographie/liens.md +++ b/cesi/intro_big_data/ressources/bibliographie/liens.md @@ -3,7 +3,7 @@ - [Wikipédia - MapReduce](https://fr.wikipedia.org/wiki/MapReduce) - [Wikipédia - Big Data](https://fr.wikipedia.org/wiki/Big_data) - [Les 3V du Big Data](https://www.journaldunet.com/solutions/expert/51696/les-3-v-du-big-data---volume--vitesse-et-variete.shtml) - +- [Bases de données orientées colonnes](http://www.timestored.com/time-series-data/what-is-a-column-oriented-database) - [Apache Hadoop](https://hadoop.apache.org/) - [Apache Storm](https://storm.apache.org/) - [Apache Spark](https://spark.apache.org/) \ No newline at end of file diff --git a/cesi/intro_big_data/ressources/hadoop-compose/README.md b/cesi/intro_big_data/ressources/hadoop-compose/README.md new file mode 100644 index 0000000..4184b70 --- /dev/null +++ b/cesi/intro_big_data/ressources/hadoop-compose/README.md @@ -0,0 +1,12 @@ +# Hadoop - Docker + +Une instance de démonstration Hadop/Yarn sous forme d'environnement Docker-Compose. + +## Démarrage + +```bash +docker-compose up +``` + +- Interface Hadoop: http://localhost:8088/ +- Interface HDFS: http://localhost:9870/ \ No newline at end of file diff --git a/cesi/intro_big_data/ressources/hadoop-compose/containers/hadoop/Dockerfile b/cesi/intro_big_data/ressources/hadoop-compose/containers/hadoop/Dockerfile new file mode 100644 index 0000000..6e199c9 --- /dev/null +++ b/cesi/intro_big_data/ressources/hadoop-compose/containers/hadoop/Dockerfile @@ -0,0 +1,41 @@ +FROM ubuntu:bionic + +ARG DEBIAN_FRONTEND=noninteractive +ARG HADOOP_VERSION=3.1.1 + +RUN apt-get update -y &&\ + apt-get install -y ssh rsync openjdk-8-jdk-headless supervisor + +RUN wget -O- http://apache.mediamirrors.org/hadoop/common/hadoop-$HADOOP_VERSION/hadoop-$HADOOP_VERSION.tar.gz > hadoop-$HADOOP_VERSION.tar.gz &&\ + tar -xzf hadoop-$HADOOP_VERSION.tar.gz &&\ + rm -f hadoop-$HADOOP_VERSION.tar.gz &&\ + mkdir -p /opt &&\ + mv hadoop-$HADOOP_VERSION /opt/hadoop + +WORKDIR /opt/hadoop + +ENV JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 + +COPY ./conf/core-site.xml etc/hadoop/core-site.xml +COPY ./conf/hdfs-site.xml etc/hadoop/hdfs-site.xml + +RUN mkdir -p /var/log/hadoop &&\ + mkdir -p /run/sshd + +RUN echo "export JAVA_HOME=$JAVA_HOME" >> etc/hadoop/hadoop-env.sh && \ + echo "export HDFS_DATANODE_USER=root" >> etc/hadoop/hadoop-env.sh && \ + echo "export HDFS_NAMENODE_USER=root" >> etc/hadoop/hadoop-env.sh && \ + echo "export HDFS_SECONDARYNAMENODE_USER=root" >> etc/hadoop/hadoop-env.sh && \ + echo "export YARN_RESOURCEMANAGER_USER=root" >> etc/hadoop/yarn-env.sh && \ + echo "export YARN_NODEMANAGER_USER=root" >> etc/hadoop/yarn-env.sh && \ + echo "PATH=$PATH:$HADOOP_HOME/bin" >> ~/.bashrc + +RUN ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa &&\ + cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys &&\ + chmod 0600 ~/.ssh/authorized_keys + +COPY ./conf/supervisor.ini /etc/supervisor.d/hadoop.ini + +EXPOSE 9870 8088 + +CMD ["/usr/bin/supervisord", "-c", "/etc/supervisor.d/hadoop.ini"] \ No newline at end of file diff --git a/cesi/intro_big_data/ressources/hadoop-compose/containers/hadoop/conf/core-site.xml b/cesi/intro_big_data/ressources/hadoop-compose/containers/hadoop/conf/core-site.xml new file mode 100644 index 0000000..e88f92a --- /dev/null +++ b/cesi/intro_big_data/ressources/hadoop-compose/containers/hadoop/conf/core-site.xml @@ -0,0 +1,6 @@ + + + fs.defaultFS + hdfs://localhost:9000 + + \ No newline at end of file diff --git a/cesi/intro_big_data/ressources/hadoop-compose/containers/hadoop/conf/hdfs-site.xml b/cesi/intro_big_data/ressources/hadoop-compose/containers/hadoop/conf/hdfs-site.xml new file mode 100644 index 0000000..9133e39 --- /dev/null +++ b/cesi/intro_big_data/ressources/hadoop-compose/containers/hadoop/conf/hdfs-site.xml @@ -0,0 +1,6 @@ + + + dfs.replication + 1 + + \ No newline at end of file diff --git a/cesi/intro_big_data/ressources/hadoop-compose/containers/hadoop/conf/supervisor.ini b/cesi/intro_big_data/ressources/hadoop-compose/containers/hadoop/conf/supervisor.ini new file mode 100644 index 0000000..3143320 --- /dev/null +++ b/cesi/intro_big_data/ressources/hadoop-compose/containers/hadoop/conf/supervisor.ini @@ -0,0 +1,66 @@ +[supervisord] +nodaemon=true + +[program:sshd] +command = /usr/sbin/sshd -o PermitRootLogin=yes -D +directory = / +user = root +autostart = true +stdout_logfile=/dev/stdout +stdout_logfile_maxbytes=0 +stderr_logfile=/dev/stderr +stderr_logfile_maxbytes=0 +priority = 0 + +[program:namenode-format] +command = bin/hdfs namenode -format +directory = /opt/hadoop +stdout_logfile=/dev/stdout +stdout_logfile_maxbytes=0 +stderr_logfile=/dev/stderr +stderr_logfile_maxbytes=0 +autostart = true +priority = 10 + +[program:namenode] +command = bin/hdfs --config etc/hadoop namenode +directory = /opt/hadoop +stdout_logfile=/dev/stdout +stdout_logfile_maxbytes=0 +stderr_logfile=/dev/stderr +stderr_logfile_maxbytes=0 +autostart = true +priority = 20 + +[program:datanode] +command = bin/hdfs --config etc/hadoop datanode +directory = /opt/hadoop +stdout_logfile=/dev/stdout +stdout_logfile_maxbytes=0 +stderr_logfile=/dev/stderr +stderr_logfile_maxbytes=0 +user = root +autostart = true +priority = 30 + +[program:resourcemanager] +command = bin/yarn --config etc/hadoop resourcemanager +directory = /opt/hadoop +stdout_logfile=/dev/stdout +stdout_logfile_maxbytes=0 +stderr_logfile=/dev/stderr +stderr_logfile_maxbytes=0 +autostart = true +priority = 40 + +[program:nodemanager] +command = bin/yarn --config etc/hadoop nodemanager +directory = /opt/hadoop +stdout_logfile=/dev/stdout +stdout_logfile_maxbytes=0 +stderr_logfile=/dev/stderr +stderr_logfile_maxbytes=0 +autostart = true +priority = 40 + + diff --git a/cesi/intro_big_data/ressources/hadoop-compose/docker-compose.yml b/cesi/intro_big_data/ressources/hadoop-compose/docker-compose.yml new file mode 100644 index 0000000..cd0ac28 --- /dev/null +++ b/cesi/intro_big_data/ressources/hadoop-compose/docker-compose.yml @@ -0,0 +1,8 @@ +version: "2.2" +services: + hadoop: + build: + context: containers/hadoop + ports: + - 8088:8088 + - 9870:9870 \ No newline at end of file