본문 바로가기
Data Engineer

Big Data World, Part 1: Definitions

by 데이터현 2021. 11. 28.

Big Data의 전체 기본적인 개념이 부족하여 자료를 서칭 하는 중에 JetBrains에서 공개한 Big Data World Series의 내용을 정리해 볼까 한다.

 

https://blog.jetbrains.com/blog/2021/05/04/big-data-world-part-1-definitions/

 

Big Data World, Part 1: Definitions | JetBrains News

This post is the first in a series about Big Data. It is aimed at telling you how we at JetBrains see Big Data, and consequently, how we're creating products for it. The world of big data can seem mysterious, hidden behind a curtain of unknown and weird wo

blog.jetbrains.com

 

 

JetBrains에서 바라보고 있는 BigData의 모습과 그 결과 어떻게 제품을 만드는지에 대해 설명하고자 한다.

 

BigData라고 하면 이상한 단어들의 뒤에서 신비롭게 보일 수 있다. 이러한 미스터리를 해소하고 BigData를 정의할 필요가 있다.

What is Big Data?

어느 순간부터 "Big Data" 는 지나치게 과장된 용어처럼, 많은 의미를 지닌 복잡한 용어가 되었다. 저자가 가장 정확하다고 생각하는 세 가지 정의를 사용한다고 한다.

Data that won’t fit the node’s memory

This is dependent on each piece of hardware, so we can’t define a universal, static value for what constitutes “big data”. I remember my ancient Intel 80386 – its 16 MB memory meant that anything more than 8 MB would be classed as “big data”. 100 MB of data looks small now, but it was considered huge in the past and required sophisticated algorithms to process.
Today, Big Data is much bigger in absolute terms, but still requires sophisticated processing, distributed computing, and special storage formats.

저자는 하드웨어에 따라 달라지기 때문에 "big data"에 대한 일반적인 고정된 값으로 정의할 수 없다고 한다.

예를 들어, 과거 Intel 80386 의 경우에는 16 MB 메모리였기 때문에 8 MB 만 되어도 "big data"라고 정의할 수 있다.

또한 지금에서는 100 MB는 매우 작아 보이지만 과거에는 역시 거대하다고 여겨져서 정교한 알고리즘이 필요했다.

오늘날, Big Data는 절대적인 측면에서 훨씬 커졌지만, 여전히 정교한 처리, 분산 컴퓨팅, 특수한 스토리지 포멧이 필요하다고 한다.

Data that scales on 3V

https://www.gereports.kr/enabling-value-from-your-data/

3V는 Volume, Velocity, Variety 를 의미한다, 각각 데이터의 양, 데이터 I/O 속도, 데이터의 다양성을 의미하는데, 3V를 확장하는 것에 대한 의미는 3V를 확장하면 10배가 늘어나도 우리가 storage, jobs, and processes를 재설계할 필요가 없다.

-> 영어를 못해서 해석을 잘 못할수도 있지만 그냥 이 세 가지 관점에서 데이터를 다뤄야 한다는 뜻 같다.

 

이후에 Variety 측면에서 10배 증가한다는 것을 정의하긴 어렵지만 , 형태나 속도가 빠르게 변화하는 경향이 있다고 한다. 또한 이러한 정의는 주로 소프트웨어에 의해 정의된다.

 

Enough data to make reliable business decisions

Let’s not forget why data, big or small, matters in the first place – to do business. Taking this into consideration, defining “Big Data” in terms of business applications is useful.
Successful businesses are almost always data driven, and usually focus on making business reliable, predictable, and consistent. Doing these things well, however, requires more data than merchants had during, say, the Middle Ages. The modern business model, user-centric, and working with each person differently, is not possible without large amounts of data
For example, most big e-commerce companies have huge clickstreams (streams of user-generated events) based on marketing that predicts which goods will be more popular than others.

빅데이터는 데이터 기반 의사결정 비즈니스에서 활용된다. 데이터 기반 의사결정은 신뢰할 수 있고, 예측 가능하고 일관성 있다.

이러한 데이터 기반 의사결정을 잘 해내기 위해선 예전 시대보다 더 많은 데이터를 요구한다.

최근 비즈니스 모델은 사용자 중심적이고 각각의 사람들이 다르게 작업하기 때문에 대량의 데이터 없이는 불가능하다.

예를 들어, 대형 전자상거래 같은 경우 거대한 클릭스트림 기반으로 사용자가 더 선호하는 상품을 예측하여 마케팅한다.

 

Customers

Now that we understand what “Big Data” is, let’s try to understand who the consumers are.
There are three main categories of internal customers:

1. Management
2. Marketing
3. Analysts

Management needs reports to understand what’s going on in the company, improve existing plans, and create new plans.

Product managers want to improve their products through experimentation and need data to analyze the results of experiments and propose new ideas.

Marketing needs data to analyze marketing metrics, such as COA (cost of acquisition), LTV (lifetime value), and so on. They also need data to build successful marketing companies.

지금까지 빅데이터가 무엇인지에 대해 이해했다면 이제 이를 사용하는 사용자를 이해해보자.

 

경영진은 회사가 어디 방향으로 가고 있는지 , 기존 계획을 개선하여 새로운 계획을 만들기 위해 리포팅이 필요하다.

제품 관리자는 실험을 통해 데이터 제품을 개선하고 새로운 아이디어를 분석을 통해 도출함.

마케팅은 인수비용, 고객 평생 가치(고객이 얼마나 제품을 오래 이용하는가) 등과 같은 마케팅 매트릭스를 분석하기 위해 데이터가 필요함. 또한 성공적인 마케팅 회사를 구축하기 위해서 필요함.

 

이 포스팅에선 빅데이터가 무엇이고, 이를 누가 소비하는지에 대해 다뤄봤다.

 

대강 알고 있는 내용도 있었지만 뭔가 애매한 개념을 좀 정확하게 이해할 수 있었다.

다음 포스팅은 어떤 전문가가 데이터를 다루고, 어떤 자격이 필요한지에 대해 포스팅한다.

'Data Engineer' 카테고리의 다른 글

데이터 직렬화 Serialization  (0) 2022.03.22
Big Data World, Part 3: Building Data Pipelines  (0) 2021.11.28
Big Data World, Part 2: Roles  (0) 2021.11.28

댓글