GCP - Bigquery
GCPμμ μ 곡νλ μ ν μ€ νλμ΄λ€.
SQLλ‘ λ°μ΄ν°λ₯Ό λΉ λ₯΄κ² μ‘°νν μ μλ€.
λΉ μΏΌλ¦¬ μ μ₯μ κ°μ
https://cloud.google.com/bigquery/docs/storage_overview?hl=ko
λΉ μΏΌλ¦¬ μ§μ νμΌ νν
μ°μ 23.10.21 κΈ°μ€ snappy μμΆ ννλ μ§μνμ§μλλ€.
νμ μ§μλ μ§λ λͺ¨λ₯΄λ snappy νν μ§μνμ§μλκ² μμ¬μμ΄ ν¬λ€.
μ¬λ¬κ°μ§ μμΆννλ‘ μ λ‘λ ν΄λ΄€λλ°,
μ°μ μ μ₯νλ €λ λ°μ΄ν°νμμ΄ μ΄μκ² λ±λ± λ¨μ΄μ§λ λ°μ΄ν°λ©΄ CSVννλ‘ μ μ₯ν΄λ λμμ§μμκ²κ°λ€.
κ·Όλ° μμ²λ°μ΄ν° μμ²΄κ° μ΄μμ§μμΌλ©΄ CSVλ λ§€μ° λΉμΆ
parquetλ avro λ‘ μλ‘κ² μμΆν΄μ μ μ¬νλ λ°©μμ μΆμ²νλ€.
jsonννλ μλλ° jsonκ²½μ°λ μ μ¬νλλ° μκ°λ³΄λ€ μ« μ λ¨Ήμμλ€.
λ°μ΄ν°μ€ μ«μ λ°μ΄ν°λ€μ΄ μ’ νΉμ΄νκ² μ μ₯λμ΄μμ΄μ λΉ μΏΌλ¦¬μμ μΈμμ΄ μμλμλ€.
avro λ parquet μμ μλλ μμΆλ₯ λΉκ΅νμ¬ μ ννλ©΄ λ κ² κ°λ€.
λ parquet νμμ μ¬μ©νλ€.
hiveμμ μΏΌλ¦¬λ‘ parquetλ‘ μΆμΆνλ κ²λ μ§μνκ³ μ½λλ‘λ μμ κ° λ§λ€.
κ·Έλ¦¬κ³ μμΆλ₯ λ μ’μμ μ©λλ μκ³ avroλ μ©λμ΄ μ΄μ°λ μ§ λͺ¨λ₯΄κ² λ€.
parquetλ‘ μΆμΆν λ μΉΌλΌλͺ λ κ°μ΄ μΆμΆλ μ μκ² μμ ν΄μ£Όλ κ²μ΄ μ’λ€.
λΉ μΏΌλ¦¬ νν°μ
νν°μ μ λ¬΄λ‘ μΏΌλ¦¬ μ€νμ μ¬λ‘― μ¬μ©μ κ°―μκ° λ€λ₯Έ κ²μΌλ‘ μκ³ μλ€.
μμ§ νν°μ μ¬μ©ν΄λ³΄μ§μμλλ°, νμ κ°κ²©μ μΈ λ©΄κΉμ§ κ³ λ €νλ€λ©΄ ν μ΄λΈ μ€κ³μ νν°μ λ μ€κ³λ₯Ό ν΄μΌνλ€.
νμ μκ°λ λ νν°μ μͺ½ νμΈν΄λ³Ό μμ μ΄λ€.