๋ฐ์ํ
- ๋ฐ์ดํฐ ๋ธ๋ฆญ์ค - spark ๊ธฐ๋ฐ ๋ฐ์ดํฐ๋ถ์ ํ๋ซํผ (ex: aws EMR)
- ๋ธํ ๋ ์ดํฌ - Databricks Lakehouse ํ๋ซํผ์ ๋ฐ์ดํฐ ๋ฐ ํ
์ด๋ธ์ ์ ์ฅํ๊ธฐ ์ํ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ ์ต์ ํ๋ ์คํ ๋ฆฌ์ง ๊ณ์ธต
- ํ์ผ๊ธฐ๋ฐ ํธ๋์ญ์ ๋ก๊ทธ๋ฅผ ์ฌ์ฉํด parquet ๋ฐ์ดํฐ ํ์ผ์ ํ์ฅ → ACID ํธ๋์ญ์ ๋ฐ ์ค์ผ์ผ๋ง ๊ฐ๋ฅํ ๋ฉํ๋ฐ์ดํฐ ์ฒ๋ฆฌ
- ์ผ๊ด ์ฒ๋ฆฌ ๋ฐ ์คํธ๋ฆฌ๋ฐ ์์ ๋ชจ๋์ ๋จ์ผ ๋ฐ์ดํฐ ๋ณต์ฌ๋ณธ์ ์ฝ๊ฒ ์ฌ์ฉํ๊ณ ๋๊ท๋ชจ๋ก ์ฆ๋ถ ์ฒ๋ฆฌ๋ฅผ ์ ๊ณต
- ๋ฐ์ดํฐ ๋ธ๋ฆญ์ค์ ๊ธฐ๋ณธ ์คํ ๋ฆฌ์ง ํ์์ ๋ธํ๋ ์ดํฌ
- SQL ๋ฌธ๋ฒ
- Python API
- ๋ธํ ๋ ์ดํฌ - Databricks Lakehouse ํ๋ซํผ์ ๋ฐ์ดํฐ ๋ฐ ํ
์ด๋ธ์ ์ ์ฅํ๊ธฐ ์ํ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ ์ต์ ํ๋ ์คํ ๋ฆฌ์ง ๊ณ์ธต
๋ฐ์ดํฐ๋ ์ดํฌ๋ก ํ ์ด๋ธ ์์ฑ ์ DBFS์ ์ ์ฅ๋จ
DBFS๋ Data Bricks File System
์ ์ ๋ฐ์ดํฐ ๋ธ๋ฆญ์ค์์ ์ฌ์ฉํ๋ ๋ถ์ฐ ํ์ผ ์์คํ ์ DBFS
DBFS, ๋ก์ปฌ ์๋ฒ ์ฌ์ฉ ๋ฐฉ๋ฒ
https://learn.microsoft.com/ko-kr/azure/databricks/files/
๋ฐ์ดํฐํฉํ ๋ฆฌ - ์ฌ๋ฌ ์ปดํจํ ๋ฐ ์คํ ๋ฆฌ์ง ์๋น์ค ์ฌ์ด์์ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌ ๋ฐ ์ด๋ํ๊ณ ์จ-ํ๋ ๋ฏธ์ค ๋ฐ์ดํฐ ์๋ณธ์ ์ง์ ๋ ๊ฐ๊ฒฉ์ผ๋ก ์ฒ๋ฆฌ ๋ฐ ์ด๋. ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ์ ๋ง๋ค๊ธฐ, ์์ฝ, ์กฐ์ ๋ฐ ๊ด๋ฆฌ (ex: aws glue, data pipe line)
728x90
๋ฐ์ํ
'CLOUD' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
GCP - Bigquery (0) | 2023.10.21 |
---|---|
GCP (0) | 2023.05.10 |
azure (0) | 2023.01.14 |
AWS EMR (0) | 2023.01.13 |