본문 바로가기

Data Engineer9

데이터 직렬화 Serialization 데이터를 직렬화는 메모리의 객체를 전달 혹은 디스크에 저장하기 위해서 특정 형태로 변환하는 것. - txt, json, csv... (스몰데이터 직렬화) - avro, parquet (빅데이터 직렬화) 그냥 사용하면 안됨?? 힙, 스택 메모리에서 참조 형식 데이터는 사용할 수 없고 value type 값만 사용할 수 있음 (python에서는 mutable immutable) 왜?? 예를 들어, 1. 힙 메모리의 값(주소, 0X001)을 직렬화 했다고 치고 2. 그 데이터를 역직렬화 해서 다른 컴퓨터에서 정상적으로 받았다고 가정하면 (0X001) 3. 역직렬화 한 데이터는 아무 의미 없는 데이터(값이 아닌 주소 값이므로 다른 PC에서는 해당 주소 값에 다른 값이 저장되어 있음) + 효율적으로 직렬화를 하기.. 2022. 3. 22.
판다스 조건 두 개 이상 판다스에서 조건 두 개 이상을 비교할 때는 & | ~ 등을 사용하면 된다. # 브랜드가 비어있지 않고, 메이커도 비어있지 않은 데이터를 불러오기 df[(df['brand']!='') & (df['maker']!='')][['brand','maker']] 2022. 3. 1.
2 스파크 기본 구조 (+ csv데이터 읽어 올때 스파크의 동작 과정) 보호되어 있는 글 입니다. 2022. 2. 2.
Big Data World, Part 3: Building Data Pipelines 2021.11.28 - [Data Engineer] - Big Data World, Part 2: Roles Big Data World, Part 2: Roles 2021.11.28 - [Data Engineer] - Big Data World, Part 1: Definitions Big Data World, Part 1: Definitions Big Data의 전체 기본적인 개념이 부족하여 자료를 서칭 하는 중에 JetBrains에서 공개한 Big Data Wo.. hkim-data.tistory.com 이전 포스팅에 이어 이번엔 데이터 파이프라인을 구축하는 방법에 대해 포스팅한 글을 정리하려 한다. https://blog.jetbrains.com/blog/2021/05/20/big-data-world.. 2021. 11. 28.
Big Data World, Part 2: Roles 2021.11.28 - [Data Engineer] - Big Data World, Part 1: Definitions Big Data World, Part 1: Definitions Big Data의 전체 기본적인 개념이 부족하여 자료를 서칭 하는 중에 JetBrains에서 공개한 Big Data World Series의 내용을 정리해 볼까 한다. https://blog.jetbrains.com/blog/2021/05/04/big-data-world-part-1-.. hkim-data.tistory.com 이전 포스팅에 이어 이번 포스팅은 Big Data를 활용하여 일하는 전문가들의 역할에 대해 알아본다. 역시 이번 포스팅도 JetBrains의 포스팅을 정리한 포스팅이다. https://blog.jet.. 2021. 11. 28.
Big Data World, Part 1: Definitions Big Data의 전체 기본적인 개념이 부족하여 자료를 서칭 하는 중에 JetBrains에서 공개한 Big Data World Series의 내용을 정리해 볼까 한다. https://blog.jetbrains.com/blog/2021/05/04/big-data-world-part-1-definitions/ Big Data World, Part 1: Definitions | JetBrains News This post is the first in a series about Big Data. It is aimed at telling you how we at JetBrains see Big Data, and consequently, how we're creating products for it. The wor.. 2021. 11. 28.
#3 Airflow Concepts documentation 부수기 [Architecture] Airflow Tutorial documentation까지 읽었다면, 사실 python code가 어느 정도 익숙하다면 바로 작성해 보는 것도 좋다. 하단 이미지는 요새 회사에서 작성하고 있는 data pipeline의 일부분이다. airflow 도입 결정 1주일 정도에 이 정도 작성했는데, 물론 단순한 aws hook을 불러와서 실행시키는 작업들이 있기는 하지만, 복잡한 dependency를 만족해야 하는 workflow를 간단하게 작성한다는 것 자체가 Airflow가 정말 쉽고 좋다는 방증이다. 아무튼 조금 더 Airflow 지식과 시간적인 여유가 생기면 Airflow 사이드 프로젝트도 블로그에 포스팅할 예정이다. 일단 이 포스팅은 좀 더 개념적으로 Airflow에 대해 알아보기 위해 Airflow .. 2021. 8. 28.
#2 Airflow Tutorial documentation 부수기 https://airflow.apache.org/docs/apache-airflow/stable/tutorial.html Tutorial — Airflow Documentation airflow.apache.org Airflow Tutorial documentaion을 부숴보자 참고로 작성당시 Airflow 버전은 2.1.2이다. from datetime import timedelta from textwrap import dedent # The DAG object; we'll need this to instantiate a DAG from airflow import DAG # Operators; we need this to operate! from airflow.operators.bash import B.. 2021. 8. 26.
#1 Airflow 설치 (With Docker windows) 회사에서 Airflow를 도입하게 되면서, 나도 제대로 정리할 겸 블로그에 시리즈 방식으로 정리할 계획이다. Airflow documentation을 읽고 Docker 기반으로 Airflow를 설치했다. https://airflow.apache.org/docs/apache-airflow/stable/start/docker.html Running Airflow in Docker — Airflow Documentation airflow.apache.org 그럼 시작해보자. 먼저 하단 포스팅을 참고해서 Docker를 설치하자. 2021.08.14 - [Development Environment/Docker] - [Docker] windows에 Docker 설치하기 [Docker] windows에 Docker .. 2021. 8. 19.