CLOUD

GCP - Bigquery

🐰히히 2023. 10. 21. 20:34
λ°˜μ‘ν˜•

GCPμ—μ„œ μ œκ³΅ν•˜λŠ” μ œν’ˆ 쀑 ν•˜λ‚˜μ΄λ‹€.

SQL둜 데이터λ₯Ό λΉ λ₯΄κ²Œ μ‘°νšŒν•  수 μžˆλ‹€.

 

빅쿼리 μ €μž₯μ†Œ κ°œμš”

https://cloud.google.com/bigquery/docs/storage_overview?hl=ko

 

BigQuery μŠ€ν† λ¦¬μ§€ κ°œμš”  |  Google Cloud

ν…Œμ΄λΈ”, ν…Œμ΄λΈ” 클둠, λ·°, μŠ€λƒ…μƒ·, 데이터 μ„ΈνŠΈμ— λŒ€ν•œ μ„€λͺ…κ³Ό νŒŒν‹°μ…˜ λ‚˜λˆ„κΈ° 및 ν΄λŸ¬μŠ€ν„°λ§κ³Ό 같은 μ„±λŠ₯ μ΅œμ ν™”λ₯Ό μœ„ν•œ μ „λž΅μ„ ν¬ν•¨ν•˜μ—¬ Google BigQuery μŠ€ν† λ¦¬μ§€μ˜ κ°œμš”λ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€.

cloud.google.com

 

빅쿼리 지원 파일 ν˜•νƒœ

μš°μ„  23.10.21 κΈ°μ€€ snappy μ••μΆ• ν˜•νƒœλŠ” μ§€μ›ν•˜μ§€μ•ŠλŠ”λ‹€.

후에 μ§€μ›λ μ§€λŠ” λͺ¨λ₯΄λ‚˜ snappy ν˜•νƒœ μ§€μ›ν•˜μ§€μ•ŠλŠ”κ²Œ 아쉬움이 크닀.

 

μ—¬λŸ¬κ°€μ§€ μ••μΆ•ν˜•νƒœλ‘œ μ—…λ‘œλ“œ ν•΄λ΄€λŠ”λ°,

μš°μ„  μ €μž₯ν•˜λ €λŠ” λ°μ΄ν„°ν˜•μ‹μ΄ 이쁘게 λ”±λ”± λ–¨μ–΄μ§€λŠ” 데이터면 CSVν˜•νƒœλ‘œ μ €μž₯해도 λ‚˜μ˜μ§„μ•Šμ„κ²ƒκ°™λ‹€.

근데 μ›μ²œλ°μ΄ν„° μžμ²΄κ°€ μ΄μ˜μ§€μ•ŠμœΌλ©΄ CSVλŠ” 맀우 λΉ„μΆ”

 

parquetλ‚˜ avro 둜 μƒˆλ‘­κ²Œ μ••μΆ•ν•΄μ„œ μ μž¬ν•˜λŠ” 방식을 μΆ”μ²œν•œλ‹€.

jsonν˜•νƒœλ„ μžˆλŠ”λ° jsonκ²½μš°λ„ μ μž¬ν•˜λŠ”λ° 생각보닀 쫌 μ• λ¨Ήμ—ˆμ—ˆλ‹€.

데이터쀑 숫자 데이터듀이 μ’€ νŠΉμ΄ν•˜κ²Œ μ €μž₯λ˜μ–΄μžˆμ–΄μ„œ λΉ…μΏΌλ¦¬μ—μ„œ 인식이 μž˜μ•ˆλμ—ˆλ‹€.

 

avro λž‘ parquet μž‘μ—… μ†λ„λ‚˜ μ••μΆ•λ₯  λΉ„κ΅ν•˜μ—¬ μ„ νƒν•˜λ©΄ 될 것 κ°™λ‹€.

 

λ‚œ parquet ν˜•μ‹μ„ μ‚¬μš©ν–ˆλ‹€.

 

hiveμ—μ„œ 쿼리둜 parquet둜 μΆ”μΆœν•˜λŠ” 것도 μ§€μ›ν•˜κ³  μ½”λ“œλ‘œλ„ μ˜ˆμ œκ°€ λ§Žλ‹€.

그리고 μ••μΆ•λ₯ λ„ μ’‹μ•„μ„œ μš©λŸ‰λ„ μž‘κ³  avroλŠ” μš©λŸ‰μ΄ μ–΄μ°Œλ μ§€ λͺ¨λ₯΄κ² λ‹€.

 

parquet둜 μΆ”μΆœν•  λ•Œ 칼럼λͺ…도 같이 μΆ”μΆœλ  수 있게 μž‘μ—…ν•΄μ£ΌλŠ” 것이 μ’‹λ‹€.

 

빅쿼리 νŒŒν‹°μ…˜

νŒŒν‹°μ…˜ 유무둜 쿼리 μ‹€ν–‰μ‹œ 슬둯 μ‚¬μš©μ˜ κ°―μˆ˜κ°€ λ‹€λ₯Έ κ²ƒμœΌλ‘œ μ•Œκ³ μžˆλ‹€.

아직 νŒŒν‹°μ…˜ μ‚¬μš©ν•΄λ³΄μ§„μ•Šμ•˜λŠ”λ°, ν›„μ˜ 가격적인 λ©΄κΉŒμ§€ κ³ λ €ν•œλ‹€λ©΄ ν…Œμ΄λΈ” μ„€κ³„μ‹œ νŒŒν‹°μ…˜λ„ 섀계λ₯Ό ν•΄μ•Όν•œλ‹€.

후에 μ‹œκ°„λ  λ•Œ νŒŒν‹°μ…˜μͺ½ 확인해볼 μ˜ˆμ •μ΄λ‹€.

728x90
λ°˜μ‘ν˜•