ํ๋ก์ ๋ค์ด๊ฐ๊ธฐ ์์ ๋น ๋ฐ์ดํฐ๊ฐ ๋ญ์ง ์์๋ณด๋ ค ํ๋ค.
๋น ๋ฐ์ดํฐ๋ ?
๊ธฐ์กด์ ๋ฐ์ดํฐ๋ฒ ์ด์ค ๊ด๋ฆฌ ๋๊ตฌ ๋ฐฉ๋ฒ์ผ๋ก ์ฒ๋ฆฌํ ์ ์๋ ๊ท๋ชจ๋ก ๋ณต์กํ ๋ฐ์ดํฐ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๊ณ ์๋ค.
๊ธฐ์กด์ ๋ฐ์ดํฐ ๋ฒ ์ด์ค๋ OLTP์ฑ์ผ๋ก ๋น ๋ฅด๊ณ ์ ํํ๋ค.
๋น ๋ฐ์ดํฐ๋ ์ ํ์ฑ์ ์ด์ ์ ๋๊ธฐ๋ณด๋ค๋ ๋์ฉ๋ ๋ฐ์ดํฐ๋ฅผ ๋ถ์ฐ์ฒ๋ฆฌํ๋๋ฐ์ ์ด์ ์ ๋๊ณ ์๋ค.
๋ฐ๋ผ์ pk, update๋ฑ ์๋๊ณ ๋ฐ์ดํฐ๋ฅผ ์๋ก putํด์ผ ํ๋ค.
๋น ๋ฐ์ดํฐ 3V
- Volume
- ๋๊ท๋ชจ์ ํฌ๊ธฐ๋ฅผ ๊ฐ์ง๊ณ ์๋ค. (๊ธฐ์ ๋ง๋ค ์ฐจ์ด๋ ์์ง๋ง ์์ญํ ๋ผ๋ฐ์ดํธ๋ถํฐ ์์ญํํ๋ฐ์ดํฐ ์ด์)
- Variety
- ์กด์ฌํ๋ ๋ฐ์ดํฐ์ ๋ฐฉ์์ด ๋ค์ํ๋ค.
- ์ ํ : ์๋ฏธ ํ์ ํ๊ธฐ ์ฌ์ฐ๋ฉฐ ๊ท์น์ ์ธ ๋ฐ์ดํฐ
- ๋ฐ์ ํ: HTML, XML,JSON ํํ๋ก ํ ํ ์คํธ์ column, value ๊ฐ์ด
- ๋น์ ํ:ํ ์คํธ, ์์ฑ, ์์ ๋ฑ์ผ๋ก ๊ท์น์ ์ด์ง ์์ ๋ฐ์ดํฐ์ด๋ค. ์์๋ก ๋ฉ์ ์ ๋ก ์ฃผ๊ณ ๋ฐ์ ๋ด์ฉ, ํตํ๋ด์ฉ ๋ฑ์ด ์๋ค.
- Velocity
- ๋ฐ์ดํฐ ์ฒ๋ฆฌ ์๋๊ฐ ๋น ๋ฅด๊ณ ํจ์จ์ ์ด์ฌ์ผ ํ๋ค
ํ๋ก ์ด๋?
๋๋์ ์๋ฃ๋ฅผ ์ฒ๋ฆฌํ ์ ์๋ ํฐ ์ปดํจํฐ ํด๋ฌ์คํฐ์์ ๋์ํ๋ ๋ถ์ฐ ์์ฉ ํ๋ก๊ทธ๋จ์ ์ง์ํ๋ค.
์ ํ๋ก?
๋ผ์ด์ ์ค ๋น์ฉ ๋ค์ง ์์ > ์ ๋ ดํ ๊ตฌ์ถ ๋น์ฉ
๋๊ท๋ชจ ๋ฐ์ดํฐ ๋น ๋ฅธ ์ฒ๋ฆฌ
๋ฐ์ดํฐ์ ๋ณต์ ๋ณธ ์ ์ฅํ๊ธฐ ๋๋ฌธ์ ๋ฐ์ดํฐ ๋ณต๊ตฌ ๊ฐ๋ฅํ๋ค.
HDFS + MapReduce ๊ตฌ์กฐ
Hadoop Data File System
ํ๋ก์ ์๋ฒ๋ฅผ ๋๊ฐ๋ฅผ ์ด๋ค.(๋ถ์ฐ์ฒ๋ฆฌ๋ฅผ ์ํ์ฌ - ์๋ฒ ๊ณผ๋ถํ ๋ฐฉ์ง, ๋ฐ์ดํฐ ์์ ํ๊ฒ ๋ณต์ฌํ์ฌ ์ ์ฅํ๊ธฐ์ํด)
์๋ฒ๋ฅผ ์ด์คํ ํ๋ ๋ฐฉ๋ฒ์ ์ฌ๋ฌ๊ฐ์ง ๋ฐฉ๋ฒ์ด ์๋๋ฐ ๊ฐ๋จํ๊ฒ Master-Slave๋ฐฉ์์ผ๋ก๋ง ์ดํดํ๋ค.
Master ์๋ฒ์๋ "๋ค์๋ ธ๋"๊ฐ ์๋ค.
์ฌ๊ธฐ์, ๋ค์๋ ธ๋๋ ๋ฐ์ดํฐ์ Meta Data๋ฅผ ๊ฐ์ง๋ค.
Meta Data - ๋ฐ์ดํฐ์ FSImage (namespace์ ๋ณด, data node๊ฐ์ block ๋งคํ ์ ๋ณด),
Editslog (๋ฉํ๋ฐ์ดํฐ ๋ณ๊ฒฝ ์ ๋ณด)๋ฅผ ๊ฐ์ง
๋ฐ์ดํฐ๋ ธ๋ - ๋ 3-copy๋ฐฉ์์ผ๋ก master์ ํ ๊ฐ, slave์๋ฒ์ 2๊ฐ๊ฐ ์ ์ฅ๋์ด ์๊ณ ์ค์ ํ์ผ์ด๋ค.
โ
HDFS์ ์ฐ๊ธฐ
-APP์์ HDFS CLient์ ๋ฐ์ดํฐ ์ฐ๊ธฐ ์ ๋ณด ์์ฒญํจ.
client๊ฐ name node์๊ฒ ๋ฐ์ดํฐ ๋ ธ๋ ์ฃผ์ 3๊ฐ๋ฅผ ์ค.
๊ทธ์ค ๊ฐ์ฅ ์์ ์๋ ๋ฐ์ดํฐ ๋ ธ๋ ์ฃผ์์ ๋ฐ์ดํฐ๋ฅผ 3๊ตฐ๋ฐ ๋ถ์ฐํ์ฌ ์ ์ฅํจ
HDFS์ ์ฝ๊ธฐ
-App์์ HDFS Client์ ๋ฐ์ดํฐ ์ฝ๊ธฐ ์ ๋ณด ์์ฒญํจ.
client๊ฐ name node์๊ฒ ๋ฉํ์ ๋ณด๋ฅผ ์์ฒญํ๊ณ
master, slave์๋ฒ์ ๋ฐ์ดํฐ ๋ ธ๋ ์ฃผ์๋ฅผ ์ ๊ณตํ์ฌ
๊ทธ ์ค ๊ฐ์ฅ ๊ฐ๊น์ด ์ฃผ์๋ก ๋ถํฐ ๋ฐ์ดํฐ๋ฅผ ์ ๊ณตํ๋ค.
MapReduce
๊ฐ๋จํ๊ฒ ๋งํ๋ฉด ๋์ฉ๋ ํ์ผ ์ฒ๋ฆฌ ์์คํ ์ผ๋ก
Map๊ณผ Reduce๊ฐ ์๋ค
Map์ ์ญํ
์์๋ฐ์ดํฐ๋ฅผ 64MB๋ก ์๋ฅด๊ณ
splitํ์ฌ key/value ์์ผ๋ก ์์์ ์ผ๋ก ๋๋๋ค.
์์์ ์ผ๋ก ๋๋ >> ๋์คํฌ ์
๋๋ ๋ฐ์ดํฐ๋ฅผ ๋ฉ๋ชจ๋ฆฌ ๋ฒํผ์์์
ํํฐ์ ํจ์๋ก ํํฐ์ ์์ญ์ผ๋ก ๊ตฌ๋ถํ๋ค.
Reduce ์ญํ
๊ตฌ๋ถํ ์ค๊ฐํ์ผ์ Reduce๋ก ํฉ์ณ key์ ์ํด sort๋๊ณ reduce ํจ์๋ก ๊ฒฐ๊ณผ๋ฌผ์ ๋์คํฌ์ ์ ์ฅํ๋ค.
'BIGDATA > ํ๋ก์์ฝ์์คํ ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Apache Spark] Apache Spark standalone Install / ์ํ์น ์คํํฌ ์ค์น (0) | 2021.03.05 |
---|---|
[Apache Hbase] HBASE 2.2.0 standalone install / Hbase ์ค์น ์ฑ๊ธ์๋ฒ (0) | 2021.03.05 |
[Apache Hive] Apache Hive / ํ์ด๋ธ standalone Install (0) | 2021.03.05 |
[Apache Hadoop] Apache Hadoop / ํ๋ก ์ฑ๊ธ์๋ฒ ์ค์น 3๋ฒ์ (0) | 2021.03.05 |
ํ์ด๋ธ๋? (0) | 2021.03.05 |