관리 메뉴

data_lab

κ²¬κ³ ν•œ 데이터 μ—”μ§€λ‹ˆμ–΄λ§ 리뷰 λ³Έλ¬Έ

μ±… μ„œν‰

κ²¬κ³ ν•œ 데이터 μ—”μ§€λ‹ˆμ–΄λ§ 리뷰

🐰히히 2023. 7. 17. 18:45

빅데이터 λΆ„μ•Ό 쀑 λ°μ΄ν„°μ—”μ§€λ‹ˆμ–΄λ§μ— κ΄€ν•œ 책도 μΆœκ°„μ΄ 많이 λŠ˜μ—ˆμŠ΅λ‹ˆλ‹€.

리뷰할 책은 ν•œλΉ›λ―Έλ””μ–΄μ˜ "κ²¬κ³ ν•œλ°μ΄ν„°μ—”μ§€λ‹ˆμ–΄λ§"μž…λ‹ˆλ‹€.

https://www.yes24.com/Product/Goods/119712582

 

κ²¬κ³ ν•œ 데이터 μ—”μ§€λ‹ˆμ–΄λ§ - YES24

μ‹€μš©μ μΈ 데이터 μ—”μ§€λ‹ˆμ–΄λ§μ˜ μ„Έκ³„λ‘œ μ΄λ„λŠ” 졜고의 μ•ˆλ‚΄μ„œ!고객 μš”κ΅¬ 사항에 λ§žλŠ” μ‹œμŠ€ν…œμ„ κ³„νšν•˜κ³  κ΅¬μΆ•ν•˜λŠ” 방법데이터 μ—”μ§€λ‹ˆμ–΄λ§ λΆ„μ•Όκ°€ λΉ λ₯΄κ²Œ μ„±μž₯ν•˜λ©΄μ„œ λ§Žμ€ μ†Œν”„νŠΈμ›¨μ–΄ μ—”μ§€λ‹ˆμ–΄

www.yes24.com

μ›μ„œ 제λͺ©μ€ μ˜€λΌμΌλ¦¬μ‚¬μ˜ The Fundamental of Data Engineering μž…λ‹ˆλ‹€.

 

 

ν•΄λ‹Ή 책은 λ°μ΄ν„°μ—”μ§€λ‹ˆμ–΄μ—κ²Œ μΆ”μ²œμ΄ λ§Žμ€ μ±…μž…λ‹ˆλ‹€. κΌ­ λ°μ΄ν„°μ—”μ§€λ‹ˆμ–΄κ°€ μ•„λ‹ˆλ”λΌλ„ ν•΄λ‹Ή 직무에 κ΄€μ‹¬μ΄μžˆκ±°λ‚˜ 빅데이터λ₯Ό λ„μž…ν•˜κ±°λ‚˜ 관심이 μžˆλŠ” λΆ„μ—κ²Œ μΆ”μ²œν•©λ‹ˆλ‹€. 저도 μΆœκ°„λ˜λŠ”κ²ƒμ„ κΈ°λ‹€λ ΈλŠ”λ°, μΆœκ°„λ˜κ³  μš΄μ΄μ’‹κ²Œ 이벀트둜 책을 λ°›μ•„ λ³Ό 수 μžˆμ—ˆμŠ΅λ‹ˆλ‹€.

 

κ°„λ‹¨ν•œ λͺ©μ°¨λ₯Ό 보면 μ΄λ ‡κ²Œ κ΅¬μ„±λ˜μ–΄μžˆμŠ΅λ‹ˆλ‹€.

[PART I 데이터 μ—”μ§€λ‹ˆμ–΄λ§ 기반 κ΅¬μΆ•ν•˜κΈ°]
CHAPTER 1 데이터 μ—”μ§€λ‹ˆμ–΄λ§ 상세
CHAPTER 2 데이터 μ—”μ§€λ‹ˆμ–΄λ§ 수λͺ… μ£ΌκΈ°
CHAPTER 3 μš°μˆ˜ν•œ 데이터 μ•„ν‚€ν…μ²˜ 섀계
CHAPTER 4 데이터 μ—”μ§€λ‹ˆμ–΄λ§ 수λͺ… μ£ΌκΈ° 전체에 걸친 기술 선택

[PART II 데이터 μ—”μ§€λ‹ˆμ–΄λ§ 수λͺ… μ£ΌκΈ° 심측 뢄석]
CHAPTER 5 1단계: μ›μ²œ μ‹œμŠ€ν…œμ—μ„œμ˜ 데이터 생성
CHAPTER 6 2단계: 데이터 μ €μž₯
CHAPTER 7 3단계: 데이터 μˆ˜μ§‘
CHAPTER 8 4단계: 쿼리 λͺ¨λΈλ§ 및 데이터 λ³€ν™˜
CHAPTER 9 5단계: 뢄석, λ¨Έμ‹ λŸ¬λ‹ 및 μ—­ ETL을 μœ„ν•œ 데이터 μ„œλΉ™


[PART III λ³΄μ•ˆ, κ°œμΈμ •λ³΄λ³΄ν˜Έ 및 데이터 μ—”μ§€λ‹ˆμ–΄λ§μ˜ 미래]
CHAPTER 10 λ³΄μ•ˆκ³Ό κ°œμΈμ •λ³΄λ³΄ν˜Έ
CHAPTER 11 데이터 μ—”μ§€λ‹ˆμ–΄λ§μ˜ 미래

총책은 μ•½ 534νŽ˜μ΄μ§€μ •λ„λ‘œ λ§Žμ€ λ‚΄μš©μ„ λ‹€λ£¨λŠ” μ–‘이고, 관심이 μžˆμœΌμ‹  뢄듀은 κΌ­! μ„œμ μ—μ„œ λ³΄κ±°λ‚˜ κ΅¬λ§€ν•΄μ„œ 보기λ₯Ό μΆ”μ²œν•©

λ‚΄μš© 쀑 μ±•ν„° 4 "데이터 μ—”μ§€λ‹ˆμ–΄λ§ 수λͺ… μ£ΌκΈ° 전체에 걸친 기술 선택" λ₯Ό λ¦¬λ·°ν•˜κ³ μž ν•©λ‹ˆλ‹€.

 

듀어가기전에 생각 정리

λ°μ΄ν„°μ—”μ§€λ‹ˆμ–΄λ§νŒ€ 각 νšŒμ‚¬μ—μ„œ λΆ€λ₯΄λŠ” λͺ…칭이 λ‹€μ–‘ν•  것 κ°™μŠ΅λ‹ˆλ‹€

λ°μ΄ν„°ν”Œλž«νΌνŒ€, λ°μ΄ν„°κ°œλ°œνŒ€, λ°μ΄ν„°μ—”μ§€λ‹ˆμ–΄λ§νŒ€ λ“±λ“± λͺ…칭도 λ‹€μ–‘ν•˜κ³  κ·Έ νŒ€μ—μ„œ μ—…λ¬΄λ˜ν•œ νšŒμ‚¬λ§ˆλ‹€ λ²”μœ„κ°€ λ‹€λ₯Όκ²ƒκ°™μŠ΅λ‹ˆλ‹€.

ν•˜λ‘‘μ—μ½”μ‹œμŠ€ν…œ 운영, 데이터 μˆ˜μ§‘ 및 적재, νƒ€νŒ€μœΌλ‘œ 데이터 λ”œλ¦¬λ²„λ¦¬ λ„“κ²ŒλŠ” μ‹œκ°ν™” λ“±λ“±μ˜ 업무도 νŒ€λ‚΄ μ—…λ¬΄λ‘œ 지정이 λ˜μ–΄μžˆμ„κ²ƒμœΌλ‘œ μΆ”μΈ‘λ©λ‹ˆλ‹€.

λ°μ΄ν„°νŒ€μ— 이미 기쑴에 κ΅¬μΆ•λ˜μ–΄ μžˆλŠ” ν•˜λ‘‘ν”Œλž«νΌμ΄ 있고 μ’€ 더 효율적인 업무진행을 μœ„ν•΄μ„œ μƒˆλ‘œμš΄ μ˜€ν”ˆμ†ŒμŠ€ λ„μž… λ˜λŠ” μΆ”κ°€κ°œλ°œμ΄ 없어진 μ˜€ν”ˆμ†ŒμŠ€ 제거 λ“±λ“±μœΌλ‘œ 기술 고민이 μžˆμ—ˆμœΌλ©° μ•žμœΌλ‘œλ„ κ΄€λ ¨λœ 고민이 λŠ˜μ–΄λ‚  것이라 μƒκ°ν•©λ‹ˆλ‹€.

κ°€μž₯ μ΅œκ·Όμ—λŠ” ν΄λΌμš°λ“œ λ„μž…μœΌλ‘œ μΈν•œ ν•˜λ‘‘λ§ˆμ΄κ·Έλ ˆμ΄μ…˜ 업무 λ˜λŠ” μ˜€ν”ˆμ†ŒμŠ€κ΅μ²΄ λ“±μ˜ 업무λ₯Ό μ§„ν–‰ν•˜λŠ” 뢄듀이 λŠ˜μ–΄λ‚¬μ„ 것이라 μƒκ°ν•©λ‹ˆλ‹€.

κ²¬κ³ ν•œ 데이터 μ—”μ§€λ‹ˆμ–΄λ§ 책은 μ‹€μ œ λ°μ΄ν„°μ—”μ§€λ‹ˆμ–΄λ“€μ΄ ν•˜λŠ” 업무와 ν˜„μž¬ μ—…λ¬΄μ—μ„œ λΆ€λ”ͺ힌 λ¬Έμ œμ— κ΄€λ ¨ν•΄μ„œ 힌트λ₯Ό μ€λ‹ˆλ‹€.

μ €λŠ” λ§Žμ€ λ‚΄μš© 쀑에 ν˜„μž¬μ™€ λ―Έλž˜μ— λŒ€ν•œ κΈ°μˆ λΉ„κ΅ 데이터 μ €μž₯μ†Œμ˜ μœ„μΉ˜ 비ꡐ 등을 닀룬 "데이터 μ—”μ§€λ‹ˆμ–΄λ§ 수λͺ… μ£ΌκΈ° 전체에 걸친 기술 선택" μ±•ν„°λ₯Ό 읽고 λ¦¬λ·°ν•˜κ³ μž ν•©λ‹ˆλ‹€.

 

데이터 μ—”μ§€λ‹ˆμ–΄λ§ 수λͺ…μ£ΌκΈ° 전체에 걸친 기술 선택

아킀텍쳐λ₯Ό μ‹€ν˜„ν•˜λŠ”λ° μ“°μ΄λŠ” λ„κ΅¬λŠ” "μ–΄λ–»κ²Œ" ꡬ좕할지 κ²°μ •ν•œ

기술(도ꡬ)을 선택할 λ•Œ κ³ λ €ν•΄μ•Όν•˜λŠ” 사항이닀.

 

1. νŒ€μ˜ 규λͺ¨μ™€ λŠ₯λ ₯

2. μ‹œμž₯ μΆœμ‹œ 속도

3. μƒν˜Έμš΄μš©μ„±

4. λΉ„μš©μ΅œμ ν™” 및 λΉ„μ¦ˆλ‹ˆμŠ€ κ°€μΉ˜

5. ν˜„μž¬μ™€ 미래: λΆˆλ³€μ˜ 기술과 μΌμ‹œμ  기술 비ꡐ

6. ꡬ좕과 ꡬ맀 비ꡐ

7. λͺ¨λ†€λ¦¬μ‹κ³Ό λͺ¨λ“ˆμ‹ 비ꡐ

8. μ„œλ²„λ¦¬μŠ€μ™€ μ„œλ²„μ˜ 비ꡐ

9. μ΅œμ ν™”, μ„±λŠ₯, 벀치마크

10. 데이터 μ—”μ§€λ‹ˆμ–΄λ§ 수λͺ…μ£ΌκΈ°μ˜ λ“œλŸ¬λ‚˜μ§€μ•ŠλŠ” μš”μ†Œ

 

기술 선택에 κ³ λ €ν•΄μ•Όν•˜λŠ” μš”μ†Œ 쀑

5번 ν•­λͺ© ν˜„μž¬μ™€ 미래의 λΆˆλ³€μ˜ 기술과 μΌμ‹œμ μΈ κΈ°μˆ μ— λŒ€ν•΄ λΉ„κ΅ν•΄λ³΄μž ν•œλ‹€.

μ²˜μŒμ— 보면 κΈ€μ”¨λ‘œ μ ‘ν•΄ 쑰금 μ–΄λ €μš΄κ²ƒ κ°™μœΌλ‚˜ μ‰½κ²Œ λ‹€μ‹œ 생각해보면 λ°”λ€Œμ§€ μ•ŠλŠ” κΈ°μˆ λ“€κ³Ό κ³„μ†ν•΄μ„œ νŠΈλ Œλ“œκ³Ό λ°”λ€ŒλŠ” κΈ°μˆ λ“€μ΄ μžˆλ‹€.

μ‰½κ²Œ λ°”λ€Œμ§€ μ•ŠλŠ” κΈ°μˆ λ‘œλŠ” λ„€νŠΈμ›Œν¬, λ³΄μ•ˆ 등이 μžˆλ‹€.

μ‰½κ²Œ λ°”λ€Œμ§€μ•ŠλŠ” κΈ°μˆ μ— 좔가될 κΈ°μˆ λ‘œλŠ” AWS S3, GCP Bigquery, Azure Blob λ“± 으둜 데이터λ₯Ό 객체 μŠ€ν† λ¦¬μ§€μ— μ €μž₯ν•˜λŠ” 것이 ν˜„λͺ…ν•œ 선택이닀.

μΌμ‹œμ μΈ κΈ°μˆ λ‘œλŠ” ν”„λ‘ νŠΈμ—”λ“œλ₯Ό 예λ₯Ό λ“€ 수 μžˆλ‹€. ν”„λ‘ νŠΈμ—”λ“œμ—μ„œ μ‚¬μš©λ˜λŠ” ν”„λ ˆμž„μ›Œν¬λ₯Ό 보면 κ³Όκ±°μ—λŠ” apache ambari μ›Ή κ°œλ°œμ— μ‚¬μš©λœ ν”„λ ˆμž„μ›Œν¬μΈ ember.js λ“± μ—μ„œ ν˜„μž¬λŠ” react둜 νŠΈλ Œλ“œκ°€ 바뀐 것을 λ³Ό 수 μžˆλ‹€.

λ”°λΌμ„œ, λ‚˜λ₯Ό μœ„ν•œ 기술(도ꡬ)λ₯Ό 선택할 λ•Œ λΆˆλ³€μ˜ κΈ°μˆ μ„ λ‚΄ 기술둜 μ‚Όκ³  μΌμ‹œμ μΈ κΈ°μˆ μ€ κΈ°μˆ μ£Όμœ„μ˜ λ„κ΅¬λ‘œ μ‚Όμ•„μ•Όν•œλ‹€.

κ°œμΈμ μœΌλ‘œλŠ” λΆˆλ³€μ˜ κΈ°μˆ λ‘œλŠ” 컴퓨터 κ³΅ν•™μ˜ 기본을 λ‚΄ 기술둜 μ‚Όκ³  κ·Έ μ™Έ μ˜€ν”ˆμ†ŒμŠ€λ₯Ό λ‹€λ£¨λŠ” 것은 κΈ°μˆ μ£Όμœ„μ˜ λ„κ΅¬λ‘œ μ‚ΌμœΌλΌν•˜λŠ” ν•„μžμ˜ μ‘°μ–ΈμœΌλ‘œ λŠλ‚„ 수 μžˆμ—ˆλ‹€.

데이터 μ—”μ§€λ‹ˆμ–΄λ§ 도ꡬλ₯Ό 선택할 λ•Œλ„ λ§Œμ— ν•˜λ‚˜λΌλ„ ν•΄λ‹Ή 도ꡬλ₯Ό μ‚¬μš©ν•  수 μ—†λŠ” 경우λ₯Ό κ³ λ €ν•˜μ—¬ μ„ νƒν•΄μ•Όν•œλ‹€.

예λ₯Όλ“€λ©΄ ν”„λ‘œμ νŠΈκ°€ μ—†μ–΄μ§€κ±°λ‚˜ νšŒμ‚¬κ°€ μ—†μ–΄μ§€κ±°λ‚˜ 등을 염렀해두고 λ‹€λ₯Έ λ„κ΅¬λ‘œ μ „ν™˜ν•΄μ•Όν•˜λŠ” 경우λ₯Ό μΈμ§€ν•΄μ•Όν•œλ‹€.

 

6번 ꡬ좕과 ꡬ맀 비ꡐ

μ±…μ—μ„œ OSS (μ˜€ν”ˆμ†ŒμŠ€μ†Œν”„νŠΈμ›¨μ–΄)와 μƒμš© OSSλ₯Ό 비ꡐ해쀀닀.

νŽΈν•˜κ²Œ μƒκ°ν•˜λ©΄ OSS 에선 apache μž¬λ‹¨μ˜ μ˜€ν”ˆμ†ŒμŠ€λ₯Ό λ– μ˜¬λ¦¬κ³  μƒμš© OSS에선 apache spark기반 λ°μ΄ν„°λΈŒλ¦­μŠ€ μ œν’ˆ, apache kafka기반 confluent μ œν’ˆμ„ λ– μ˜¬λ¦΄ 수 μžˆλ‹€.

ꡬ좕과 ꡬ맀 λΉ„κ΅ν•΄λ³΄μžλ©΄ μž₯단점이 λͺ…ν™•ν•˜λ‹€.

직접 ꡬ좕은 λ°μ΄ν„°μ—”μ§€λ‹ˆμ–΄μ—κ²Œ μ„±μž₯ν•  수 μžˆλŠ” 밑거름이 λœλ‹€. ν™˜κ²½ κ΅¬μ„±ν•˜λ©° λΆ€λ”ͺνžˆλŠ” νŠΈλŸ¬λΈ”μŠˆνŒ…μ΄λ‚˜ ν™˜κ²½μ—λŒ€ν•œ 이해도 높일 수 μžˆλ‹€. κ·ΈλŸ¬λ‚˜ μ˜€ν”ˆμ†ŒμŠ€μ΄λ‹€ λ³΄λ‹ˆ known issueλ˜λŠ” μƒˆλ‘œμš΄ μ΄μŠˆλ“€μ΄ 생길 수 있으며 μš΄μ˜μ€‘μΈ ν™˜κ²½μ—μ„œ μ˜€ν”ˆμ†ŒμŠ€ 이슈λ₯Ό ν•΄κ²°ν•˜λŠ”λ° μƒλ‹Ήνžˆ λ§Žμ€ μ‹œκ°„μ΄ μ†Œμš”λœλ‹€. 

μƒμš© OSSλ₯Ό κ΅¬λ§€ν•˜μ—¬ μ‚¬μš©ν•˜λŠ” 경우 μš΄μ˜μ— λŒ€ν•œ 뢀담이 λœν•œ νŽΈμ΄λ‹€. 그리고 μ˜€ν”ˆμ†ŒμŠ€μ†Œν”„νŠΈμ›¨μ–΄κ°€ μ•„λ‹Œ μƒμš©μ΄κΈ°λ•Œλ¬Έμ— μ§€μ›μ΄λ‚˜ μ΄μŠˆλŒ€μ‘μ„ 받을 수 μžˆλ‹€. κ·ΈλŸ¬λ‚˜ μ²˜μŒλΆ€ν„° μƒμš© OSSλ₯Ό μ‚¬μš©ν•œλ‹€λ©΄ 직접 ꡬ좕에 λΉ„ν•΄ 이해도가 μ’€ λ–¨μ–΄ μ§ˆμˆ˜λ„ μžˆλ‹€λŠ” 생각도 λ“œλ‚˜ λ°μ΄ν„°μ—”μ§€λ‹ˆμ–΄ 개인이 κ³΅λΆ€λ§Œ ν•œλ‹€λ©΄ 차이λ₯Ό 극볡할 수 μžˆλ‹€κ³  μƒκ°ν•œλ‹€. κ·ΈλŸ¬λ‚˜ 단점도 μžˆλ‹€. 비ꡐ적 큰 λΉ„μš©μ΄ λ“€λ©° 업무 진행할 λ•Œ μ§€μ›μ΄λ‚˜ λ¬Έμ„œμ§€μ›μ— λŒ€ν•΄μ„œλ„ 고민을 ν•΄λ΄μ•Όν•œλ‹€.

 

끝으둜

μ €λŠ” ν˜„μž¬ λ°μ΄ν„°μ—”μ§€λ‹ˆμ–΄λ‘œ μž¬μ§μ€‘μ— μžˆμŠ΅λ‹ˆλ‹€. 업무 μ§„ν–‰ν•˜λ‹€ 보닀보면 κΆκΈˆν•œκ²Œ 생기면 μ›Ή κ°œλ°œμ— λΉ„ν•΄ 정보가 λΆ€μ‘±ν•œνŽΈμ΄ μ‚¬μ‹€μž…λ‹ˆλ‹€. κΈ°μˆ μ™Έμ μœΌλ‘œ κ³ λ―Όλ˜λŠ” λ‚΄μš©λ“€ νšŒμ‚¬ λ™λ£Œμ˜ 생각도 λ“£κ³ , 더 λ‚˜μ•„κ°€ λ‹€λ₯Έ μ‚¬λžŒλ“€μ˜ κ²½ν—˜κ³Ό 생각을 μ ‘ν•˜κ³  μ‹Άμ—ˆλŠ”λ° 이 책을 읽고 μ–΄λŠμ •λ„ ν•΄μ†Œλ˜λŠ” 것 κ°™μ•˜μŠ΅λ‹ˆλ‹€.

λ‚΄μš©μ€ μ•„λ¬΄λž˜λ„ κ²½ν—˜μ΄ μ „ν˜€ μ—†λŠ” μ‚¬λžŒμ—κ²ŒλŠ” μ „λΆ€ μ΄ν•΄λŠ” μ’€ μ–΄λ €μšΈ 것 κ°™μœΌλ‚˜ λ°μ΄ν„°μ—”μ§€λ‹ˆμ–΄μ§λ¬΄λ₯Ό ν¬λ§ν•˜λŠ” 뢄은 κΌ­ 읽어보면 쒋을 것 κ°™μŠ΅λ‹ˆλ‹€. κ²°κ΅­ μ‹œκ°„μ΄ μ§€λ‚˜λ©΄ μ±…μ˜ λ‚΄μš©μ„ 이해할 수 μžˆμ„ κ²ƒμž…λ‹ˆλ‹€.

 

 

ν•œλΉ›λ―Έλ””μ–΄μ—μ„œ 책을 제곡 λ°›μ•„ μž‘μ„±λœ μ„œν‰μž…λ‹ˆλ‹€.

728x90
λ°˜μ‘ν˜•