Skip to content

MiguelAngelBaquero/BigDataDeveloper

 
 

Repository files navigation

BigDataDeveloper

Descripción del Repositorio

Este repositorio cuenta con las siguientes herramientas:

  • MySQL
  • Hadoop
  • Spark
  • Hive
  • Jupyter

Todo el contenido se ejecutara en codespace de github.

Desplegar container

  1. Crear un codespace para el repositorio e ingresar al mismo
  2. Abrir terminal de codespace
  3. Ejecutar el siguiente comando para desplegar los contenedores
    >_ docker-compose up
    Esta linea desplegara los contenedores y podras ver estos utilizando la extension Docker explorer

MySQL

Este contenedor contiene una base de datos llamada retail_db y consta de las siguientes tablas:

  • customers
  • orders
  • order_items
  • products
  • categories
  • departments

credenciales:
user: root
pass: root
port: 3310
Ejecutar ifconfig en terminal para obtener la ip (eth0)

Hadoop

Para poder trabajar con hadoop ingresamos al contenedor del datanode.
Abrimos un terminal nuevo y ejecutamos lo siguiente >_ docker exec -it datanode bash
Asi para cada contenedor con el que queremos trabajar.

Para utilizar sqoop en el datanode debemos ejecutar lo siguiente >_ sh /datanode/scripts/script.sh

Para exportar las tabla de la base de datos retail con sqoop ejecutar lo siguiente: >_ sh /datanode/scripts/sqoop/script_sqoop_textfile.sh

>_ sh /datanode/scripts/sqoop/script_sqoop_avro.sh

Disponibilizar archivos avro para exportar a otro contenedor: hdfs dfs -put *.avsc /user/datapath/datasets/avro

Hive

Para poder trabajar con hive ingresamos al contenedor del hive-server.
Abrimos un terminal nuevo y ejecutamos lo siguiente >_ docker exec -it hive-server bash

Para crear tablas externas en base a los datos importados con sqoop ejecutamos los siguientes pasos:

Abrir un terminal y copiar el archivo hive.hql a hive-server >_ docker cp datanode/scripts/hive/hive_avro.hql hive-server:/opt
En el terminal de hive-server ejecutamos lo siguiente para crear las tablas. >_ hive -f /opt/hive_avro.hql

About

No description or website provided.

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • HTML 68.3%
  • Java 15.9%
  • Jupyter Notebook 10.7%
  • Shell 2.7%
  • CSS 1.0%
  • Batchfile 0.4%
  • Other 1.0%