๊ด€๋ฆฌ ๋ฉ”๋‰ด

๋ชฉ๋กhadoop (8)

data_lab

[Hadoop] Hadoop 3.1.1 ๋ฒ„์ „ ํ…Œ์ŠคํŠธ / ํ•˜๋‘ก ํ…Œ์ŠคํŠธ ๋ฐฉ๋ฒ•

ํ•˜๋‘ก์„ ์„ค์น˜ํ•˜๊ณ  ํ™˜๊ฒฝ์— ๋งž๊ฒŒ ์„ธํŒ…ํ•œ ํ›„ ์ •์ƒ์ ์œผ๋กœ ์„ค์น˜๊ฐ€ ๋˜์—ˆ๋Š”์ง€ ํ™•์ธํ•  ํ•„์š”๊ฐ€ ์žˆ๋‹ค. ๊ธฐ๋ณธ์ ์œผ๋กœ ์ œ๊ณตํ•˜๋Š” example.jar ํŒŒ์ผ์„ ํ†ตํ•ด ์ž„์˜์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๊ณ  ๋ณ‘๋ ฌ์ฒ˜๋ฆฌํ•˜์—ฌ ์ •๋ ฌ, ์ •๋ ฌ๋œ ๋ฐ์ดํ„ฐ์˜ ์œ ํšจ์„ฑ์„ ๊ฒ€์‚ฌํ•˜์—ฌ ๊ธฐ๋ณธ์ ์ธ ์„ฑ๋Šฅ์„ ํ…Œ์ŠคํŠธํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. ๊ณต์‹์‚ฌ์ดํŠธ์—์„œ๋Š” ์˜ˆ์ œ ์ฐพ๊ธฐ ํž˜๋“ค์—ˆ๊ณ , microsoft azure๋ฅผ ์ฐธ๊ณ ํ•˜์—ฌ ํ…Œ์ŠคํŠธ๋ฅผ ์ง„ํ–‰ํ–ˆ๋‹ค. https://docs.microsoft.com/ko-kr/azure/hdinsight/hadoop/apache-hadoop-run-samples-linux HDInsight์—์„œ Apache Hadoop MapReduce ์˜ˆ์ œ ์‹คํ–‰ - Azure HDInsight์— ํฌํ•จ๋œ jar ํŒŒ์ผ์˜ MapReduce ์ƒ˜ํ”Œ์„ ์‚ฌ์šฉํ•˜์—ฌ ์‹œ์ž‘ํ•˜์„ธ์š”. SSH๋ฅผ ํ†ตํ•ด ํด๋Ÿฌ์Šคํ„ฐ์—..

[Hive] ํ•˜์ด๋ธŒ ๋ช…๋ น์–ด ์ •๋ฆฌ/ Hive ๋ช…๋ น์–ด ์ •๋ฆฌ

HIVE ํ…Œ์ด๋ธ” ๊ด€๋ฆฌ HIVE ํ…Œ์ด๋ธ” 1. ๋ฐ์ดํ„ฐ๋ฅผ HIVE ํ…Œ์ด๋ธ”๋กœ ๊ฐ€์ ธ์˜ค๋ฉด? HiveQL, ํ”ผ๊ทธ, ์ŠคํŒŒํฌ ๋“ฑ์„ ํ™œ์šฉํ•˜์—ฌ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌ > ์ƒํ˜ธ์šด์˜ ๋ณด์žฅ 2. HIVE๊ฐ€ ์ง€์›ํ•˜๋Š” ํ…Œ์ด๋ธ” ์ข…๋ฅ˜ - ๋‚ด๋ถ€ ํ…Œ์ด๋ธ” : HIVE๊ฐ€ ๊ด€๋ฆฌ, HIVE/ ๋ฐ์ดํ„ฐ์›จ์–ดํ•˜์šฐ์Šค์— ์ €์žฅ, ๋‚ด๋ถ€ํ…Œ์ด๋ธ” ์‚ญ์ œ ์‹œ ๋ฉ”ํƒ€์ •์˜์™€ ๋ฐ์ดํ„ฐ๊นŒ์ง€ ์‚ญ์ œ๋จ, ORC๊ฐ™์€ ํ˜•์‹์œผ๋กœ ์ €์žฅ๋˜์–ด ๋น„๊ต์  ๋น ๋ฅธ ์„ฑ๋Šฅ - ์™ธ๋ถ€ ํ…Œ์ด๋ธ” : ํ•˜์ด๋ธŒ๊ฐ€ ์ง์ ‘ ๊ด€๋ฆฌํ•˜์ง€ ์•Š์Œ, ํ•˜์ด๋ธŒ์˜ ๋ฉ”ํƒ€์ •์˜๋งŒ ์‚ฌ์šฉํ•˜์—ฌ ์›์‹œ ํ˜•ํƒœ๋กœ ์ €์žฅ๋œ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ์— ์ ‘๊ทผ ์™ธ๋ถ€ ํ…Œ์ด๋ธ”์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ญ์ œํ•ด๋„ ํ…Œ์ด๋ธ” ๋ฉ”ํƒ€ ์ •์˜๋งŒ ์‚ญ์ œ๋˜๊ณ  ๋ฐ์ดํ„ฐ๋Š” ์œ ์ง€๋จ. ํ•ด๋‹น ๋ฐ์ดํ„ฐ๊ฐ€ ํ•˜์ด๋ธŒ ์™ธ๋ถ€์— ์ ์žฌ ๋˜์–ด์žˆ๊ฑฐ๋‚˜ ํ…Œ์ด๋ธ”์ด ์‚ญ์ œ๋˜๋”๋ผ๋„ ์›๋ณธ ๋ฐ์ดํ„ฐ๊ฐ€ ๋‚จ์•„ ์žˆ์–ด์•ผํ•  ๋•Œ ์‚ฌ์šฉ 3.csv ํŒŒ์ผ์„ ํ•˜์ด๋ธŒ ํ…Œ์ด๋ธ”๋กœ ๊ฐ€์ ธ์˜ค๊ธฐ 1...

[Hue] ํœด ์„ค์น˜ ๊ฐ€์ด๋“œ / Hue ์„ค์น˜ ๊ฐ€์ด๋“œ 4.0.1

hue ์„ค์น˜ ํ•  ๋•Œ ์•ž์„œ ์žˆ๋˜ ํ•˜๋‘ก ์—์ฝ”์‹œ์Šคํ…œ๋“ค์ด ์–ด๋Š์ •๋„ ์„ค์น˜๋˜์—ˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•˜๊ณ  ์ง„ํ–‰ํ•˜๊ฒ ๋‹ค. ํœด์˜ ๊ฒฝ์šฐ ์„ค์น˜ํ•˜๊ธฐ์ „์— ์‚ฌ์ „์ž‘์—…์„ ํ•ด์ค˜์•ผ ํ•œ๋‹ค. postgres๋Š” ๋‹ค๋ฅธ ํฌ์ŠคํŠธ์—์„œ ์„ค์ •์„ ๋‹ค๋ฃจ๊ธฐ๋กœ ํ•˜๊ณ , ํœด ์„ค์น˜ ๊ฐ€์ด๋“œ ์—์„œ๋Š” ํœด์—์„œ ์‚ฌ์šฉํ•  ๋ฐ์ดํ„ฐ ๋ฒ ์ด์Šค ์ƒ์„ฑ์ •๋„๋งŒ ๋‹ค๋ฃฐ ์˜ˆ์ •์ด๋‹ค. ์‚ฌ์ „์ž‘์—… ํœด๋Š” ํŒŒ์ด์ฌ์„ ์‚ฌ์šฉํ•˜๊ธฐ ๋•Œ๋ฌธ์— ํ™˜๊ฒฝ๋ณ€์ˆ˜๋กœ ํŒŒ์ด์ฌ ๋ฒ„์ „์„ ์žก์•„์ค˜์•ผํ•œ๋‹ค. ํ™˜๊ฒฝ๋ณ€์ˆ˜๋Š” .bash_profile ์— ์ถ”๊ฐ€ํ•˜์˜€๋‹ค. ํŒŒ์ด์ฌ ํ™˜๊ฒฝ๋ณ€์ˆ˜ ์ถ”๊ฐ€ $ sudo vi ~/..bash_profile export PYTHON_VER=python3.8 psycopg2 ์„ค์น˜ (์ „์— pip๋„ ์„ค์น˜๋˜์–ด ์žˆ์–ด์•ผํ•จ) $ pip install psycopg2 $ python setup.py build $ sudo python setup.py i..

[Apache Hadoop] Apache Hadoop / ํ•˜๋‘ก ์‹ฑ๊ธ€์„œ๋ฒ„ ์„ค์น˜ 3๋ฒ„์ „

์‹ฑ๊ธ€๋…ธ๋“œ์—์„œ ํ•˜๋‘ก์„ ์–ด๋–ป๊ฒŒ ์„ค์น˜ํ•˜๋Š”์ง€ ์ž‘์„ฑํ•˜๋ คํ•œ๋‹ค. ํ•˜๋‘ก์„ ์„ค์น˜ํ•˜๊ธฐ ์ „์— ๊ธฐ๋ณธ์ ์œผ๋กœ os์—์„œ ์„ค์ •์„ ๋ฐ”๊ฟ”์•ผ ํ•˜๋Š”๊ฒŒ ์žˆ๋‹ค. ์ผ๋‹จ ๊ธฐ๋ณธ์ ์œผ๋กœ os ๋ฒ„์ „์€ cent os7.x ์ด๋‹ค. ์ธํ”„๋ผ๋ฅผ ์šด์˜ํ•  ๋•Œ root ๊ณ„์ •์€ ์‚ฌ์šฉํ•˜์ง€ ์•Š๋Š”๋‹ค. ๋‹ค๋ฅธ ๊ณ„์ •์„ ์ƒ์„ฑํ•˜์—ฌ sudo ๊ถŒํ•œ์„ ๋ถ€์—ฌ๋ฐ›๊ณ  ์ตœ๋Œ€ํ•œ ๊ทธ ๊ณ„์ •์œผ๋กœ ์„ค์น˜๋ฅผ ์ง„ํ–‰ํ•œ๋‹ค. ํ•˜๋‘ก์„ ์„ค์น˜ํ•˜๊ธฐ ์ „์—?๋ฐฉํ™”๋ฒฝ์„ ๋‚ด๋ฆฌ๊ณ  selinux disabled ๊ทธ๋ฆฌ๊ณ  ์œ ์ €๊ณ„์ •์„ ์ถ”๊ฐ€ํ•˜์—ฌ ๋˜๋„๋ก root๊ณ„์ •์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š๊ณ  ์ง„ํ–‰ํ•˜๋ คํ•œ๋‹ค. ์ž๋ฐ”๋Š” open jdk 1.8๋ฒ„์ „์„ ์„ค์น˜ํ•˜์—ฌ ํ™˜๊ฒฝ๋ณ€์ˆ˜ ์ถ”๊ฐ€ํ•œ๋‹ค. ํ•ด๋‹น ๋‚ด์šฉ์€ ์ถ”ํ›„์— ์ถ”๊ฐ€์˜ˆ์ •์ด๋‹ค.ํ•˜๋‘ก ์„ค์น˜์„ค์น˜ ๋ฒ„์ „ : Apache Hadoop 3.1.1https://hadoop.apache.org/release/3.1.1.htmltar.gz ๋ฒ„์ „์œผ๋กœ..

ํ•˜์ด๋ธŒ๋ž€?

RDBMS ์Šคํ‚ค๋งˆ์— ์˜์กด์„ฑ ๊ฐ•ํ•จ ์œผ๋กœ ์ž‘์—…์ด ์ง„ํ–‰ ๋ถˆ๊ฐ€๋Šฅํ•œ ๊ฒฝ์šฐ๊ฐ€ ์žˆ์Œ - ์Šคํ‚ค๋งˆ๊ฐ€ ์ œ๋Œ€๋กœ ์ •์˜๋˜์–ด ์žˆ์ง€์•Š๊ฑฐ๋‚˜ - ์ฟผ๋ฆฌ๋ฅผ ํ†ตํ•œ ์งˆ์˜๊ฐ€ ์Šคํ‚ค๋งˆ์— ๋งž์ง€ ์•Š์„ ๊ฒฝ์šฐ ๋Œ€์šฉ๋Ÿ‰ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌํ•˜๋Š”๋ฐ ๋ถ€์ ์ ˆํ•จ โ€“ ๋งŽ์€ ์‹œ๊ฐ„ ์†Œ์š”๋จ HIVE ๋ฐ์ดํ„ฐ์›จ์–ด ํ•˜์šฐ์ง• ์ธํ”„๋ผ ๋ฐ์ดํ„ฐ ์ €์žฅ, ์ฒ˜๋ฆฌ์— ์Šคํ‚ค๋งˆ ๊ฒ€์ฆ ์—†์Œ ์Šคํ‚ค๋งˆ์— ๋งž์ง€ ์•Š๋Š” ์ฟผ๋ฆฌ๋Š” null ๋ฆฌํ„ด SQL๊ณผ ์œ ์‚ฌํ•œ HiveQL ์‚ฌ์šฉ MapReduce ํ”„๋กœ๊ทธ๋žจ ์ž‘์„ฑ ๋Œ€์‹  ์ฟผ๋ฆฌ ์ธํ„ฐํŽ˜์ด์Šค ์„œ๋น„์Šค ์ œ๊ณต ์ฟผ๋ฆฌ ์‹คํ–‰ ์‹œ MapReduce ํ”„๋กœ๊ทธ๋žจ์œผ๋กœ ์ „ํ™˜๋˜์–ด ๊ฒฐ๊ณผ ์ƒ์„ฑ ๋น„ ์ •ํ˜•ํ™”๋œ ์ž…๋ ฅ ์†Œ์Šค ๋ถ„์„์—๋Š” ์ ํ•ฉํ•˜์ง€ ์•Š์Œ HIVE Architecture -HIVE Client -JDBC ์‘์šฉ ํ”„๋กœ๊ทธ๋žจ ์ง€์› , -Thrift ๊ธฐ๋ฐ˜ ์‘์šฉ ํ”„๋กœ๊ทธ๋žจ ์ง€์›(์„œ๋กœ ์ปค๋ฎค๋‹ˆ์ผ€์ด์…˜ ํ•  ์ˆ˜ ์žˆ๋Š” ํ†ต์‹  ํ”„๋กœํ† ์ฝœ..

ํ•˜๋‘ก์ด๋ž€?

ํ•˜๋‘ก์— ๋“ค์–ด๊ฐ€๊ธฐ ์•ž์„œ ๋น…๋ฐ์ดํ„ฐ๊ฐ€ ๋ญ”์ง€ ์•Œ์•„๋ณด๋ ค ํ•œ๋‹ค. ๋น…๋ฐ์ดํ„ฐ๋ž€ ? ๊ธฐ์กด์˜ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค ๊ด€๋ฆฌ ๋„๊ตฌ ๋ฐฉ๋ฒ•์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์—†๋Š” ๊ทœ๋ชจ๋กœ ๋ณต์žกํ•œ ๋ฐ์ดํ„ฐ ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค. ๊ธฐ์กด์˜ ๋ฐ์ดํ„ฐ ๋ฒ ์ด์Šค๋Š” OLTP์„ฑ์œผ๋กœ ๋น ๋ฅด๊ณ  ์ •ํ™•ํ•˜๋‹ค. ๋น…๋ฐ์ดํ„ฐ๋Š” ์ •ํ™•์„ฑ์— ์ดˆ์ ์„ ๋‘๊ธฐ๋ณด๋‹ค๋Š” ๋Œ€์šฉ๋Ÿ‰ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์‚ฐ์ฒ˜๋ฆฌํ•˜๋Š”๋ฐ์— ์ดˆ์ ์„ ๋‘๊ณ  ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ pk, update๋“ฑ ์•ˆ๋˜๊ณ  ๋ฐ์ดํ„ฐ๋ฅผ ์ƒˆ๋กœ putํ•ด์•ผ ํ•œ๋‹ค. ๋น…๋ฐ์ดํ„ฐ 3V Volume ๋Œ€๊ทœ๋ชจ์˜ ํฌ๊ธฐ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค. (๊ธฐ์—…๋งˆ๋‹ค ์ฐจ์ด๋Š” ์žˆ์ง€๋งŒ ์ˆ˜์‹ญํ…Œ๋ผ๋ฐ”์ดํŠธ๋ถ€ํ„ฐ ์ˆ˜์‹ญํŽ˜ํƒ€๋ฐ์ดํ„ฐ ์ด์ƒ) Variety ์กด์žฌํ•˜๋Š” ๋ฐ์ดํ„ฐ์˜ ๋ฐฉ์‹์ด ๋‹ค์–‘ํ•˜๋‹ค. ์ •ํ˜• : ์˜๋ฏธ ํŒŒ์•…ํ•˜๊ธฐ ์‰ฌ์šฐ๋ฉฐ ๊ทœ์น™์ ์ธ ๋ฐ์ดํ„ฐ ๋ฐ˜์ •ํ˜•: HTML, XML,JSON ํ˜•ํƒœ๋กœ ํ•œ ํ…์ŠคํŠธ์— column, value ๊ฐ™์ด ๋น„์ •ํ˜•:ํ…์ŠคํŠธ, ์Œ์„ฑ, ์˜์ƒ ..