๊ด€๋ฆฌ ๋ฉ”๋‰ด

data_lab

Azure ๋ณธ๋ฌธ

CLOUD

Azure

๐Ÿฐํžˆํžˆ 2023. 4. 24. 20:49
  1. ๋ฐ์ดํ„ฐ ๋ธŒ๋ฆญ์Šค - spark ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ๋ถ„์„ ํ”Œ๋žซํผ (ex: aws EMR)
    1. ๋ธํƒ€ ๋ ˆ์ดํฌ - Databricks Lakehouse ํ”Œ๋žซํผ์— ๋ฐ์ดํ„ฐ ๋ฐ ํ…Œ์ด๋ธ”์„ ์ €์žฅํ•˜๊ธฐ ์œ„ํ•œ ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•˜๋Š” ์ตœ์ ํ™”๋œ ์Šคํ† ๋ฆฌ์ง€ ๊ณ„์ธต
      1. ํŒŒ์ผ๊ธฐ๋ฐ˜ ํŠธ๋žœ์žญ์…˜ ๋กœ๊ทธ๋ฅผ ์‚ฌ์šฉํ•ด parquet ๋ฐ์ดํ„ฐ ํŒŒ์ผ์„ ํ™•์žฅ → ACID ํŠธ๋žœ์žญ์…˜ ๋ฐ ์Šค์ผ€์ผ๋ง ๊ฐ€๋Šฅํ•œ ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ
      2. ์ผ๊ด„ ์ฒ˜๋ฆฌ ๋ฐ ์ŠคํŠธ๋ฆฌ๋ฐ ์ž‘์—… ๋ชจ๋‘์— ๋‹จ์ผ ๋ฐ์ดํ„ฐ ๋ณต์‚ฌ๋ณธ์„ ์‰ฝ๊ฒŒ ์‚ฌ์šฉํ•˜๊ณ  ๋Œ€๊ทœ๋ชจ๋กœ ์ฆ๋ถ„ ์ฒ˜๋ฆฌ๋ฅผ ์ œ๊ณต
      3. ๋ฐ์ดํ„ฐ ๋ธŒ๋ฆญ์Šค์˜ ๊ธฐ๋ณธ ์Šคํ† ๋ฆฌ์ง€ ํ˜•์‹์€ ๋ธํƒ€๋ ˆ์ดํฌ
      4. SQL ๋ฌธ๋ฒ•
        1. https://learn.microsoft.com/ko-kr/azure/databricks/sql/language-manual/#delta-lake-statements
      5. Python API
        1. https://docs.delta.io/latest/api/python/index.html

๋ฐ์ดํ„ฐ๋ ˆ์ดํฌ๋กœ ํ…Œ์ด๋ธ” ์ƒ์„ฑ ์‹œ DBFS์— ์ €์žฅ๋จ

DBFS๋Š” Data Bricks File System

์• ์ € ๋ฐ์ดํ„ฐ ๋ธŒ๋ฆญ์Šค์—์„œ ์‚ฌ์šฉํ•˜๋Š” ๋ถ„์‚ฐ ํŒŒ์ผ ์‹œ์Šคํ…œ์€ DBFS

DBFS, ๋กœ์ปฌ ์„œ๋ฒ„ ์‚ฌ์šฉ ๋ฐฉ๋ฒ•

https://learn.microsoft.com/ko-kr/azure/databricks/files/

๋ฐ์ดํ„ฐํŒฉํ† ๋ฆฌ - ์—ฌ๋Ÿฌ ์ปดํ“จํŒ… ๋ฐ ์Šคํ† ๋ฆฌ์ง€ ์„œ๋น„์Šค ์‚ฌ์ด์—์„œ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌ ๋ฐ ์ด๋™ํ•˜๊ณ  ์˜จ-ํ”„๋ ˆ๋ฏธ์Šค ๋ฐ์ดํ„ฐ ์›๋ณธ์„ ์ง€์ •๋œ ๊ฐ„๊ฒฉ์œผ๋กœ ์ฒ˜๋ฆฌ ๋ฐ ์ด๋™. ๋ฐ์ดํ„ฐ ํŒŒ์ดํ”„๋ผ์ธ์„ ๋งŒ๋“ค๊ธฐ, ์˜ˆ์•ฝ, ์กฐ์ • ๋ฐ ๊ด€๋ฆฌ (ex: aws glue, data pipe line)

728x90
๋ฐ˜์‘ํ˜•

'CLOUD' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

GCP - Bigquery  (0) 2023.10.21
GCP  (0) 2023.05.10
azure  (0) 2023.01.14
AWS EMR  (0) 2023.01.13