AhmetFurkanDEMIR
diff --git a/‎README.md
Lines changed: 76 additions & 0 deletions b/‎README.md
Lines changed: 76 additions & 0 deletions
diff --git a/‎config-hadoop
Lines changed: 29 additions & 0 deletions b/‎config-hadoop
Lines changed: 29 additions & 0 deletions
diff --git a/‎docker-compose.yml
Lines changed: 135 additions & 0 deletions b/‎docker-compose.yml
Lines changed: 135 additions & 0 deletions
diff --git a/‎docker/consumer/Dockerfile
Lines changed: 8 additions & 0 deletions b/‎docker/consumer/Dockerfile
Lines changed: 8 additions & 0 deletions
diff --git a/‎docker/consumer/hdfs.py
Lines changed: 17 additions & 0 deletions b/‎docker/consumer/hdfs.py
Lines changed: 17 additions & 0 deletions
diff --git a/‎docker/consumer/kafka_consumer.py
Lines changed: 28 additions & 0 deletions b/‎docker/consumer/kafka_consumer.py
Lines changed: 28 additions & 0 deletions
diff --git a/‎docker/consumer/requirements.txt
Lines changed: 2 additions & 0 deletions b/‎docker/consumer/requirements.txt
Lines changed: 2 additions & 0 deletions
diff --git a/‎docker/producer/Dockerfile
Lines changed: 8 additions & 0 deletions b/‎docker/producer/Dockerfile
Lines changed: 8 additions & 0 deletions
@@ -0,0 +1,76 @@
+# Data Engineering Project with HDFS and Kafka
+
+![](/images/map.png)
+
+A project to create a data pipeline with data taken from Hepsiburada data engineering case study.
+
+* [docker-compose.yml](/docker-compose.yml)
+
+
+* [config-hadoop](/config-hadoop)
+
+
+* [Producer](/docker/producer/)
+    
+    * [Dockerfile](/docker/producer/Dockerfile) 
+
+    * [HB data](/docker/producer/hb-data.json)
+
+    * [Kafka producer](/docker/producer/kafka_producer.py)
+
+    * [requirements](/docker/producer/requirements.txt)
+
+
+* [Consumer](/docker/consumer/)
+
+    * [Dockerfile](/docker/consumer/Dockerfile) 
+
+    * [Kafka consumer](/docker/consumer/kafka_consumer.py)
+
+    * [requirements](/docker/consumer/requirements.txt)
+
+    * [HDFS](/docker/consumer/hdfs.py)
+
+### Steps
+
+Open an Ubuntu machine via AWS EC2 for the project.
+
+![](/images/instance.png)
+
+Open the necessary ports on the machine through the firewall.
+
+![](/images/ingress.png)
+
+You also need to open the necessary ports with the operating system.
+
+```bash
+sudo ufw allow 9870
+sudo ufw allow 8080
+sudo ufw allow 8088
+```
+
+Then, stand up the docker images.
+
+```bash
+docker-compose up --build
+```
+
+One minute after the images stand up, data begins to be written to the Kafka topic and activity begins in the data pipeline.
+
+
+Data from Kafka topic. IP:8080 or [0.0.0.0:8080](http://0.0.0.0:8080)
+![](/images/kafka_ui.png)
+
+
+Hadoop HDFS interface. IP:9870 or [0.0.0.0:9870](http://0.0.0.0:9870)
+![](/images/hdfs_datanode.png)
+
+
+Data from HDFS. IP:9870 or [0.0.0.0:9870](http://0.0.0.0:9870)
+![](/images/hdfs_data.png)
+
+
+Hadoop cluster interface. IP:8088 or [0.0.0.0:8088](http://0.0.0.0:8088)
+![](/images/hadoop.png)
+
+[Ahmet Furkan Demir](https://ahmetfurkandemir.com/)
@@ -0,0 +1,29 @@
+CORE-SITE.XML_fs.default.name=hdfs://namenode
+CORE-SITE.XML_fs.defaultFS=hdfs://namenode
+HDFS-SITE.XML_dfs.namenode.rpc-address=namenode:8020
+HDFS-SITE.XML_dfs.webhdfs.enabled=true
+HDFS-SITE.XML_dfs.permissions=false
+HDFS-SITE.XML_dfs.replication=1
+MAPRED-SITE.XML_mapreduce.framework.name=yarn
+MAPRED-SITE.XML_yarn.app.mapreduce.am.env=HADOOP_MAPRED_HOME=$HADOOP_HOME
+MAPRED-SITE.XML_mapreduce.map.env=HADOOP_MAPRED_HOME=$HADOOP_HOME
+MAPRED-SITE.XML_mapreduce.reduce.env=HADOOP_MAPRED_HOME=$HADOOP_HOME
+YARN-SITE.XML_yarn.resourcemanager.hostname=resourcemanager
+YARN-SITE.XML_yarn.nodemanager.pmem-check-enabled=false
+YARN-SITE.XML_yarn.nodemanager.delete.debug-delay-sec=600
+YARN-SITE.XML_yarn.nodemanager.vmem-check-enabled=false
+YARN-SITE.XML_yarn.nodemanager.aux-services=mapreduce_shuffle
+CAPACITY-SCHEDULER.XML_yarn.scheduler.capacity.maximum-applications=10000
+CAPACITY-SCHEDULER.XML_yarn.scheduler.capacity.maximum-am-resource-percent=0.1
+CAPACITY-SCHEDULER.XML_yarn.scheduler.capacity.resource-calculator=org.apache.hadoop.yarn.util.resource.DefaultResourceCalculator
+CAPACITY-SCHEDULER.XML_yarn.scheduler.capacity.root.queues=default
+CAPACITY-SCHEDULER.XML_yarn.scheduler.capacity.root.default.capacity=100
+CAPACITY-SCHEDULER.XML_yarn.scheduler.capacity.root.default.user-limit-factor=1
+CAPACITY-SCHEDULER.XML_yarn.scheduler.capacity.root.default.maximum-capacity=100
+CAPACITY-SCHEDULER.XML_yarn.scheduler.capacity.root.default.state=RUNNING
+CAPACITY-SCHEDULER.XML_yarn.scheduler.capacity.root.default.acl_submit_applications=*
+CAPACITY-SCHEDULER.XML_yarn.scheduler.capacity.root.default.acl_administer_queue=*
+CAPACITY-SCHEDULER.XML_yarn.scheduler.capacity.node-locality-delay=40
+CAPACITY-SCHEDULER.XML_yarn.scheduler.capacity.queue-mappings=
+CAPACITY-SCHEDULER.XML_yarn.scheduler.capacity.queue-mappings-override.enable=false
+
@@ -0,0 +1,135 @@
+---
+version: '2'
+services:
+  namenode:
+    image: apache/hadoop:3
+    hostname: namenode
+    command: ["hdfs", "namenode"]
+    depends_on:
+      - resourcemanager
+      - nodemanager
+    ports:
+      - 9870:9870
+    env_file:
+      - ./config-hadoop
+    environment:
+      ENSURE_NAMENODE_DIR: "/tmp/hadoop-root/dfs/name"
+    networks:
+      - kafka-network
+    volumes:
+      - hadoop:/home/
+    restart: on-failure
+
+  datanode:
+    image: apache/hadoop:3
+    command: ["hdfs", "datanode"]
+    depends_on:
+      - namenode
+    env_file:
+      - ./config-hadoop
+    networks:
+      - kafka-network
+    volumes:
+      - hadoop:/home/
+    restart: on-failure
+
+  resourcemanager:
+    image: apache/hadoop:3
+    hostname: resourcemanager
+    command: ["yarn", "resourcemanager"]
+    ports:
+      - 8088:8088
+    env_file:
+      - ./config-hadoop
+    volumes:
+      - ./test.sh:/opt/test.sh
+    networks:
+      - kafka-network
+    restart: on-failure
+
+  nodemanager:
+    image: apache/hadoop:3
+    hostname: nodemanager
+    command: ["yarn", "nodemanager"]
+    env_file:
+      - ./config-hadoop
+    networks:
+      - kafka-network
+    volumes:
+      - hadoop:/home/
+    restart: on-failure
+
+  zookeeper:
+    container_name: zookeeper
+    image: confluentinc/cp-zookeeper:5.0.0
+    environment:
+      ZOOKEEPER_CLIENT_PORT: 2181
+    networks:
+      - kafka-network
+    volumes:
+      - hadoop:/home/
+    restart: on-failure
+
+
+  kafka-ui:
+    image: provectuslabs/kafka-ui:latest
+    ports:
+      - 8080:8080
+    environment:
+      KAFKA_CLUSTERS_0_NAME: kafka
+      KAFKA_CLUSTERS_0_BOOTSTRAPSERVERS: kafka:29092
+      DYNAMIC_CONFIG_ENABLED: 'true'
+    networks:
+      - kafka-network
+
+  kafka:
+    hostname: kafka
+    container_name: kafka
+    image: confluentinc/cp-kafka:5.0.0
+    depends_on:
+      - zookeeper
+    networks:
+      - kafka-network
+    ports:
+      - "9092:9092"
+      - "29092:29092"
+    environment:
+      KAFKA_BROKER_ID: 1
+      KAFKA_ZOOKEEPER_CONNECT: zookeeper:2181
+      KAFKA_ADVERTISED_LISTENERS: PLAINTEXT://kafka:29092,PLAINTEXT_HOST://kafka:9092
+      KAFKA_LISTENER_SECURITY_PROTOCOL_MAP: PLAINTEXT:PLAINTEXT,PLAINTEXT_HOST:PLAINTEXT
+      KAFKA_INTER_BROKER_LISTENER_NAME: PLAINTEXT
+      KAFKA_OFFSETS_TOPIC_REPLICATION_FACTOR: 1
+      KAFKA_AUTO_CREATE_TOPICS_ENABLE: "true"
+    volumes:
+      - hadoop:/home/
+    restart: on-failure
+
+  producer:
+    container_name: producer
+    build: ./docker/producer
+    volumes:
+      - .:/code
+    depends_on:
+      - kafka
+    networks:
+      - kafka-network
+    restart: on-failure
+
+  consumer:
+    container_name: consumer
+    build: ./docker/consumer
+    volumes:
+      - .:/code
+    depends_on:
+      - kafka
+    networks:
+      - kafka-network
+    restart: on-failure
+
+networks:
+  kafka-network:
+    external: true
+
+volumes:
+  hadoop:
@@ -0,0 +1,8 @@
+FROM python:3.7
+WORKDIR /code
+
+RUN python3 -m pip install --upgrade pip
+COPY requirements.txt requirements.txt
+RUN pip3 install -r requirements.txt
+COPY . .
+CMD [ "python3", "docker/consumer/kafka_consumer.py" ]
@@ -0,0 +1,17 @@
+import pyhdfs
+import uuid
+
+hdfs = pyhdfs.HdfsClient(hosts="namenode:9870", user_name="hdfs")
+
+userhomedir = hdfs.get_home_directory()
+print(userhomedir)
+availablenode = hdfs.get_active_namenode()
+print(availablenode)
+print(hdfs.listdir("/"))
+
+hdfs.mkdirs('/data')
+print(hdfs.list_status('/data'))
+
+def write_to_hdfs(json_str):
+
+    hdfs.create("/data/{}.json".format(str(uuid.uuid1())), json_str)
@@ -0,0 +1,28 @@
+from kafka import KafkaConsumer
+from json import loads
+import time
+
+time.sleep(50)
+
+import hdfs
+
+try:
+
+    consumer = KafkaConsumer(
+        'hb',
+        bootstrap_servers=['kafka:29092'],
+        auto_offset_reset='earliest',
+        enable_auto_commit=True,
+        group_id='my-group',
+        value_deserializer=lambda x: loads(x.decode('utf-8')))
+
+except:
+  raise Exception('kafka connect error')
+
+
+for message in consumer:
+    message = message.value
+    hdfs.write_to_hdfs(str(message))
+    print(message)
+    
+    
@@ -0,0 +1,2 @@
+kafka-python
+PyHDFS
@@ -0,0 +1,8 @@
+FROM python:3.7
+WORKDIR /code
+
+RUN python3 -m pip install --upgrade pip
+COPY requirements.txt requirements.txt
+RUN pip3 install -r requirements.txt
+COPY . .
+CMD [ "python3", "docker/producer/kafka_producer.py" ]