Posts

Showing posts from 2012

2013 년 계획

2012년 한 해가 또 이렇게 저물어 가는구나. 다행히 년초 계획[1]은 대부분 이루었고 오히려 기대보다 넘어선 것들이 많다.

2013년은 이제 그 동안 야심차게 갈아온 칼을 꺼내는 해가 되지 않을까 싶다. 몇 가지 좀 정리해보면,

소득 안정화, 재테크 자산 5배 키우기하마 웹 북 완료끝내주는 하마 실제 사례
일단 요정도만 ..

음 왠지 좀 재미는 없는 것 같다. 어느덧 30대 중반. 뭐든 한참 시작할때가 재밌다. 오픈소스도 인생도 .. 내년엔 경험해보지 못한 또 다른 시작이 있기를.

1. http://blog.udanax.org/2011/10/2011-2012.html


The 4th OSS Conference of the Ministry of Knowledge Economy

Image
This week, I was invited as a special lecturer and panel speaker at the 4th OSS Conference of the Ministry of Knowledge Economy (Korea). It was fun and here's a few pictures.


Trustin Lee (Netty), Minsuk Lee (Assistant Dean of NHN Next), Edward J. Yoon (Apache Hama)

Edward J. Yoon (윤진석 @ 공개소프트웨어데이)

Flume NG Performance

According to Flume wiki[1], it has capable of achieving approx. 70,000 events/sec on a single machine (high-end level) at the time of the test with no data loss (300 bytes per event). If you can't imagine how big 70,000 events/sec is, see this "Tweets per second"[2].

1. https://cwiki.apache.org/FLUME/flume-ng-performance-measurements.html
2. http://yearinreview.twitter.com/en/tps.html

Bioinformatics, Big Data, and MapReduce

Today suddenly someone asked me about Bioinformatics, Big Data, and MapReduce, I said "you should be more concerned about data complexity than size. And also, studying GraphLab or Hama will be helpful" ... :/

Memorise these, and you could pass yourself off as an expert.

리치스탄

미국의 슈퍼리치 전문기자 로버트 프랭크가 쓴 '리치스탄'이란 책에 이런 일화가 나온다. 엄청난 부자가 반바지에 슬리퍼 차림으로 아들과 산책을 나갔다 문득 자동차가 사고 싶어 고급차 매장에 들어갔다. 하지만 자동차 판매원은 허름한 옷차림의 이 부자를 쫓아버린다. 자신이 파는 고급차를 살만한 사람으로 보이지 않았던 거다.

이 슈퍼리치는 자동차 매장을 나오면서 아들에게 "양복은 부자들에게 고용된 사람들이나 입는 것"이란 취지의 말을 한다. 고용된 직장인들은 출근할 때 회사에서 원하는 대로 옷을 입어야 하고 남들에게 잘 보이기 위해 옷차림에 신경 써야 하는거다.

슈퍼리치들이 옷이나 보석같은 분야에 돈을 쓰지않고 여행이나 자녀교육비에 지출하는 점을 프랭크는 부자들이 "물질 사치적"이라기보다 "경험 사치적"인 소비성향을 보이고 있다고 해석했다.

경험하고 공부하는데 돈을 써라.

Running Hama Over InfiniBand

Create an SDP configuration file Each BSP peer (task) will have its own port number for communicating with others. For example, if you set set bsp.peer.port to 61000 and set bsp.tasks.maximum to 5, BSP peers will use the port range from 61000 to 61005.

To enable SDP[1] support for BSP peers, create a configuration file like the following sample:
[edward@192.168.10.1 ~]# cat {$HAMA_HOME}/conf/sdp.conf # Use SDP when binding to bind 192.168.10.1 61000-61010 # Use SDP when connecting to connect 192.168.10.0/24 61000-61010 NOTE: This configuration file must reside on every node.

Set the system property that specifies the location of the configuration file And then, set the location of the configuration file by adding -Dcom.sun.sdp.conf to the bsp.child.java.opts property as following:
<property> <name>bsp.child.java.opts</name> <value>-Dcom.sun.sdp.conf={$HAMA_HOME}/conf/sdp.conf -Xmx1024m</value> </property> If everything is OK, you w…

OSS App Hackathon @ National Information Society Agency

Image
Yesterday, there was a OSS App Hackathon arranged by the NIA (National Information Society Agency) in Seoul. I attended as a panel of judges w/ Prof. Lee of the Next, NHN University. A lot of people were in there.


You can read more details (Korean news) here:
 - http://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=105&oid=138&aid=0001997038

Fault-tolerance in Hama

Recently, Hama core committers Suraj Menon and Thomas Jungblut are working on Fault-tolerant BSP system. And I am trying to read the source code. Their design describes the new BSP computing system and API enabling checkpoint-based recovery. Furthermore, describes the confined recovery, which can be used to improve the cost and latency of recovery.

I didn't fully understand and test yet but quite nice!

PageRank with Apache Hama

The dataset contains 5,716,808 pages and 130,160,392 links and is unzipped ~1gb large. [oracle@bda03 hama-0.6.0-SNAPSHOT]$ hadoop dfs -ls edward Found 1 items -rw-r--r-- 3 oracle hadoop 1058414409 2012-08-28 22:16 /user/oracle/edward/links-simple-sorted.txt [oracle@bda03 hama-0.6.0-SNAPSHOT]$ bin/hama jar hama-examples-0.6.0-SNAPSHOT.jar pagerank /user/oracle/edward/links-simple-sorted.txt out 12/09/10 18:44:25 INFO bsp.FileInputFormat: Total input paths to process : 1 12/09/10 18:44:25 INFO net.NetworkTopology: Adding a new node: /switch1/192.168.10.3:50010 12/09/10 18:44:25 INFO net.NetworkTopology: Adding a new node: /switch1/192.168.10.5:50010 12/09/10 18:44:25 INFO net.NetworkTopology: Adding a new node: /switch1/192.168.10.16:50010 12/09/10 18:44:25 INFO net.NetworkTopology: Adding a new node: /switch1/192.168.10.14:50010 12/09/10 18:44:25 INFO net.NetworkTopology: Adding a new node: /switch1/192.168.10.15:50010 12/09/10 18:44:25 INFO net.NetworkTopology: Adding a new node:…

Semi-clustering with Apache Hama

How do you analyze the social networks? Sentiment analysis or Text mining? I think the valuable insight can be found by analyzing the evolution of network structures or, information flows. Network science is needed.

In this post, I'm introducing the powerful graph computing package of Apache Hama and semi-clustering algorithm described Google's Pregel paper[1]. A semi-cluster in a social graph is a group of people who interact frequently with each other and less frequently with others. It is different from ordinary clustering in the sense that a vertex may belong to more than one semi-cluster.

The algorithm is a greedy algorithm. Since Apache Hama provides complete clone of Pregel, you can write a semi-clustering program and run it on large graphs in a few minutes like this:
@Override public void compute(Iterator<SCMessage> messages) throws IOException { if (this.getSuperstepCount() == 0) { // In superstep 0, V enters itself in that list as a semi-…

MapReduce and Beyond

Hi, in this post I'm going to tell you about past and near future of big data processing. In 2006, I worked as a Senior Software Engineer for web portal company, NHN, corporation. Since then, I had experienced a data explosion (the average pageview per day was one billion), and began to research distributed computing technologies.

In my early research, batch-oriented MapReduce[1] was one of interesting technology. As all of you know well now, MapReduce programming is very simple and powerful, especially, useful for the aggregation and several basic relational algebraic operations on large data-sets.

However, MapReduce is NOT good for everything. For example, graph algorithms[2], machine learning, and matrix arithmetic. SQL-like Pig, Hive, and MR-based Mahout shows well the scope and limit of MapReduce. Iterative MapReduce also has some problems such as heavy cost for task assignment and I/O overhead. A lack of ability to perform as a real-time was also issue.

Today, many MapRe…

Some Benchmarks of Hadoop and Hama on Oracle's BDA

The I/O performance of HDFS with TestDFSIO.% hadoop jar hadoop-test-0.20.2-cdh3u3b.jar TestDFSIO -write -nrFiles 10 -fileSize 1000 ----- TestDFSIO ----- : write Date & time: Thu Jul 26 18:50:11 PDT 2012 Number of files: 10 Total MBytes processed: 10000.0 Throughput mb/sec: 163.4360801490537 Average IO rate mb/sec: 167.77435302734375 IO rate std deviation: 25.658150459575825 Test exec time sec: 19.329 hadoop jar hadoop-test-0.20.2-cdh3u3b.jar TestDFSIO -read -nrFiles 10 -fileSize 1000 ----- TestDFSIO ----- : read Date & time: Thu Jul 26 19:22:14 PDT 2012 Number of files: 10 Total MBytes processed: 10000.0 Throughput mb/sec: 374.6721618583739 Average IO rate mb/sec: 375.14581298828125 IO rate std deviation: 13.625353109608241 Test exec time sec: 17.311 The communication performance of Apache Hama with Bench tool. % hama jar hama-examples-0.5.0.jar bench 16 100000 32 ... 12/07/26 21:12:16 INFO bsp.BSPJobClient: Current s…

Running Hama on Oracle's Big Data appliance

Image
This post describes how to setup a Hama cluster on Oracle's Big Data appliance. Apache Hama is a "Bulk Synchronous Parallel" computing framework on top of Hadoop's HDFS.


Basically, Cloudera Manager is installed on Oracle Big Data Appliance to help you with Cloudera's Distribution including Apache Hadoop (CDH) operations. Once finished Hadoop installation, you can check the version of Hadoop as below:
[root@bda01 ~]# hadoop version Hadoop 0.20.2-cdh3u3b Subversion file:///data/1/tmp/topdir/BUILD/hadoop-0.20.2-cdh3u3b -r 0560e235f226fcd7a0b8a011d4a1b78afad032e0 Compiled by root on Fri Mar 16 07:36:05 PDT 2012 From source with checksum 9257f5bf2f59f5a294e9b69f3f59283b Now let's download latest Hama 0.5.0. You can download at here.
[root@bda01 ~]# wget https://dist.apache.org/repos/dist/release/hama/0.5.0/hama-0.5.0.tar.gz [root@bda01 ~]# tar xvfz hama-0.5.0.tar.gz [root@bda01 ~]# cd hama-0.5.0 Hama 0.5 version is shipped with Hadoop 1.0. So, you have to replace H…

Like children who playing on the seashore.

Image
The adults digs the sand for clams, the children builds sand castles. 
Pure sentiment. Sometimes I want to live like children who playing on the seashore.

Hadoop 1.0 뽀개기 (2) : MapReduce

Image
작성자: 윤진석 (Edward J. Yoon) 맵리듀스MapReduce는 HDFS에 분산 저장된 데이터에 스트리밍 접근을 요청하며 빠르게 분산 처리하도록 고안된 프로그래밍 모델이며, 또한 이를 지원하는 시스템을 말한다.

시스템 내부 구조는 작업Job 및 모니터링을 관리하는 잡 트래커JobTracker와 실질적인 연산 업무를 처리하는 태스크 트래커TaskTracker로 구성된다. 잡트래커는 HDFS에 의해 분할 된 각 데이터 조각의 지역 특성을 고려하여 각 태스크 트래커에 적절한 업무를 할당하는 방법으로 효과적인 분산 처리가 가능하도록 한다.

프로그래밍 모델

맵리듀스란 이름은 애초 Lisp와 같은 함수형 언어의 맵map과 리듀스Reduce 함수 모델을 차용하면서 유래되었다. 데이터의 집합에 맵 함수를 적용하여 새로운 집합intermediate data을 만들고 다시 리듀스 함수를 적용해서 하나의 결과로 취합하는 과정으로 구성된다.

일반적인 함수형 언어와의 차이점은 키밸류 데이터 집합을 또다른 키밸류 데이터 집합으로 제한된다는 점이다. 예를 들어, 다음과 같이 Map에서 한 쌍의 키밸류 데이터를 입력받아 새로운 (K2, V2) 셋을 만들고, Reduce에서 K2로 그룹핑grouping된 V2 리스트를 집계 연산한다.

Map (K1, V1) -> (K2, V2) Reduce (K2, sequence of V2) -> (K3, V3)
보통 Map의 역할이 데이터를 가공해서 분류하는데 있으므로 연산가공자Filter라 하고, Reduce의 역할은 분류된 데이터를 통합하는 데 있으므로 집계 연산자Aggregator라고도 한다. 하둡의 맵리듀스 프로그램은 이와 같이 두 함수의 구현을 통해 데이터 처리를 쉽게 병렬화 할 수 있고 범용적으로 활용 가능하다. 예를 들어, 웹 문서 URL과 내부 URL 링크셋 데이터가 있고, 자신을 링크하는 역 링크 URL 셋을 얻고자 한다. 그러면 Map에서 단지 거꾸로 데이터 셋을 가공하는 것으로 …

Hadoop 1.0 뽀개기

Image
작성자: 윤진석 (Edward J. Yoon) 이번 포스트는 하둡 1.0의 핵심 구성 요소 HDFS와 맵리듀스MapReduce, 그리고 대용량 준정형 데이터semi-structured data 저장소 HBase 데이터 모델의 기본 개념을 소개하겠다.

하둡 1.0 은 대용랑 파일을 저장할 수 있는 분산 파일시스템 HDFS와 이를 분산 처리 할 수 있는 맵리듀스 컴퓨팅 프레임워크로 구성되어 있다.맵리듀스 프로그래밍 모델은 복잡한 분산 컴퓨팅을 키/밸류 기반으로 단순화된 모델을 제공한다.HBase는 하둡 분산 파일시스템 기반에서 대용량 비정형 데이터 관리를 할 수 있게 하는 분산 스토리지이다.칼럼 패밀리와 시계열이 추가된 다차원 테이블 모델을 갖고 있으며, HBase의 칼럼 지향 아키텍처는 빠른 랜덤 억세스와 저장의 효율성을 보장한다.위 언급된 모든 시스템은 웹 기반 관리 도구와 장애 허용 능력Fault Tolerance Capability을 갖추고 있다.
1. 하둡 분산 파일 시스템, HDFSHDFS란?

하둡의 분산 파일 시스템, HDFSHadoop Distributed File System는 모든 기능의 밑 바탕이 되는 클러스터 기반 가상 파일 시스템이다. HDFS의 디자인은 대용량 데이터를 저가의 서버에 분산 저장하고 여러 번 읽기에 최적화된write-once-read-many 단순한 목적과 자동 복구 기능에 집중하고 있다. 이에 가장 두드러지는 특징이 바로 무한대의 선형 확장성이다. 파일과 디렉토리의 개수는 네임 노드의 메모리 크기에 제한을 받지만 최대 볼륨 크기, 파일 크기에는 제한이 없다. 그리고, 데이터를 여러 서버에 복제하여 각 서버에 고가의 RAID 구성을 필요로 하지 않고도 장애 복구Fail-over 가 가능하도록 하였다.

내부적으로 정확한 세부 사항은 상당히 다르지만 일반적인 파일 시스템의 자료구조와 상당히 유사한 구조를 지닌다. 즉 인덱스 노드와 데이터 블록이 중심 개념이며 전통적인 계층 구조의 파일시스템을 제공한…

IT crowd

Image
"If you're stuck on programming something, Call BBQ (chicken) store manager for technical details."

This is a joke between korean developers. Who should make the best use of their TALENT and taking full advantage of it?


급발진은 불가능하다.

요즘 급발진 뉴스가 많던데 .. 이거 정말 가능할까? 왜 모든 급발진 사고는 브레이크를 밟는 타이밍에 발생하는건가?

스로틀이 와이어식인건 기계 결함없는 급발진이 아예 불가능하고, 그래 전자식인 경우는 소프트웨어 버그로 RPM 급상승이 가능은 해보인다. 근데 그와 동시에 브레이크가 동작 안 한다는건 상식적으로 이해가 안가는 부분. ECU라는게 컴퓨터 PC처럼 모든 기능을 중앙관리하는게 아니고 윈도우 미러나 브레이크 등 모두 분할된 독립 모듈로 구성되있다. 각종 전가기기의 전자파 영향 얘기도 나오는데 전자파보다는 오히려 자기장에 더 관련있을것 같네.

여튼 ECU 버그로 RPM이 레드존까지 치고 올라가더라도 브레이크를 밟으면 튀어나가지 않는다. 더하여 사이드 브레이크도 있고. 소나타가 헐크로 변한다? 연료가 아무리 과하게 주입되어도 토크는 상승하지 않는다. 물론 브레이크가 노후된거면 조금씩 밀릴 수는 있겠고 울컥울컥할 땐 그냥 밟아도 서지만 한번 가속된거면 양발로 강하게 푸쉬해야 된다.

그럼 또, 당황하면 브레이크 못 밟을 수도 있지 않은가? 절대 네버 노! 뒤에서 광속 질주해오는 차들 무시하고 고속도로 한복판에 차 세우고 전화받는 김여사를 보라. 우리네 브레이크 본능은 무시하기 힘들지. 오히려 안밟고 컨트롤 하면 될 것을 브레이크 밟아서 더 큰 사고 발생하는 이유가 뭐겠어. 물론 협소한 곳에서 그러면 당황할테지만 어딘가에 바로 박을 테고. 뻥뚫린 도로에서 그러면 국산 승용차로는 제로백 8초도 못 찍을텐데 시간적으로 충분하지. 영상들 보면 차 스스로인지는 몰겠으나 악셀링하면서 변속도 타이밍 맞춰 잘하고 그러던데 ㅋ

결국 아마 악셀을 브레이크로 착각하고 밟으면서 튀어나간 경우가 태반일 것이고, ..

한가지 의심되는게 있다라 하면, 스포츠카 같은 류에는 브레이크와 악셀을 같이 밟고 몇 초 대기하면 급발진 모드로 전환하는 이른바 런치 컨트롤 시스템이라는게 있는데, .. 현대차나 기아차가 펌웨어 해외에서 사다가 커스터마이징하면서 지들도 모르던 런치 컨트롤 같은 기능을 …

[PICS] Apache Hama Talk at Daum, Jeju Island

Image

Is This Wonderland - Neil Zaza cover

Image

Be a Doer

There are two type of regret.

1. regret on already happening
2. regret on not done things

The latter is more terrible, because it's unjustifiable.

Big Data, Why Matrix is important?

Image
We feels the beauty of harmony and convenience of order from regular array that can be found in the Library or Parking lot. Like this, the matrix is applied not only to mathematical problems but also to problems in our real life as a useful concept. For examples, account book, items or goods management, encryption and decryption, population analysis, statistical data analysis, quantitative business analysis, and the transportation network analysis, ..., etc.

The matrix is everywhere, it is all around us.
The same is true of the Cyber world. The matrix is an essential part of information management and analysis. Just think of Amazon bookstore, Foursquare, Google Maps/Places, Social network services and its traffic flow networks or user in/out flows, ..., etc. Log data. The only difference is scale, Local Vs. World-wide. In shortly, Big Data! Do you love this term?

Wait! What is Matrix?

In mathematics, the matrix is an rectangular array of numbers or letters arranged in rows and columns. …

Pregel clone package on top of Apache Hama

Today, I finished testing new Graph package and its examples of Apache Hama on 2 rack 512 cores fully distributed cluster.

The new Graph APIs is the completely clone of Google's Pregel and its performance  is also quite good. Hama-0.5 release will provide really powerful BSP computing engine and lot of new features. :D

 Here's full source code of Single Source Shortest Path:
/** * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this work for additional information * regarding copyright ownership. The ASF licenses this file * to you under the Apache License, Version 2.0 (the * "License"); you may not use this file except in compliance * with the License. You may obtain a copy of the License at * * http://www.apache.org/licenses/LICENSE-2.0 * * Unless required by applicable law or agreed to in writing, software * distributed under the License is distributed o…

My guitar playing

Image

Received new car as compensation

Image
I was having (engine stalls) problem with ma car 2011 Z4 sDrive30i, finally received new one as compensation from the BMW. Yahoo!

The model of my new car is 2012 new Z4 sDrive 35i with twin turbo, 7-speed dual clutch transmission, alpine white body, red seats, full sound package ..., etc. options.

I dislike turbo engine (more precisely, turbo-lag) but this is quite good, except crackable alloy wheels (you must watch out for all potholes nervously) and rough engine braking (the car behind might kick your ass if you take off the gas pedal suddenly).

This car has an awesome performance, unbelievable quick response, new +/- paddle shifts, and back-fire sounds like beast... (If you listen very closely, you may hear the sound of Benz SLS amg). Overall, ★★★★☆.

Compared to (1st generation) older model Z4, this car got convenience and enough output but lost sparky and sprinter's explosive power. Shortly, this is a sporty-daily car. If you're looking for hardcore machine, you should hav…

Cassandra 책 속에 내 이름

Image
아 못난이같지만 자랑질 좀 하자.
카싼드라 책 속에 내이름이 있음을 오늘 처음 발견했다. ㅋ

기다려봐.
내가 글로벌 최대 출판사와 IT전문서적을 publish한 최초의 한국인이 될테니.

Stability equals death

Biologically, being alive means keeping instability. Our cells pump out sodium (Na) and take in potassium (K) until they die. Between start and end of all things, there's only instability.

Why don't we have to pursue more instable life?
.
.
.
.
.
(But, ... I seems not ready to give up my stable life yet.)

빅데이터는 노하우의 내재화가 핵심이다.

내가 지금껏 IT 업계에서 봐온 짜증-류의 작업은 크게 3개 정도 있다.

1) 첫째가 새벽에 출근해서 DB 만지는 것.

 가령, 블로그 서비스에 (사소할지언정) 어떤 기능이 하나 추가되거나 기획자들이 리포트를 원할 때면 필연적으로 RDBMS 스키마를 변경하거나 묵직한 쿼리를 날려야 되는 문제가 따라온다. 그러면 그냥 새벽에 ‘임시점검’ 띄워놓고 DB 작업하는 거다. 데이터가 증가하거나 장애가 뜨면 또 어떤가. 바로 이런 짜증스런 문제에서 Schema-free, ad-hoc query processing, fault tolerant 요구가 나오고 NoSQL 기술이 진화하는 것이다.

2) 두 번째, 웹 서버에 웹 로그 파일 4GB 짜리가 수십 개씩 뚝뚝 떨어진다.

 로그파일 떨어지는걸 감당못해 바로바로 압축하고 테이프에 떠서 지워가는 곳도 있을거다. 이 때, 어떤 장애가 발생하면 당근 과거 로그는 뒤져볼 수 가 없겠고, 로그레벨을 debug로 맞춰서 재현될 때까지 멍청하게 눈팅 하는거다. 그래서 거대한 분산 파일시스템, 로그 마이닝 같은 기술에 열광하는게 아닐까. 잡설 1, 미국 어느 주에서는 Facebook, Twitter 타임라인가지고 crime prediction 하기도 하고 (왠지 자살같은것도 미연에 방지할 수 있겠고) 그런다던데 ... 한국은 왠지 알바생들이 나꼼수 트위터 눈팅할 듯.

3) 세 번째, 의사결정권자는 언제나 근거자료를 원한다.

 어떤 문제나 서비스/상품을 기획해서 에스컬레이션 올리면 의사결정권자는 근거를 원한다. 그 근거는 수치로 말하는 것이 확실하다. Shut up and use the math. 이런 통계를 내려고 MySQL 깔아서 데이터 입력해놓고 쿼리문으로 조지던 개발자들 많을거다.

 뭐 여튼, 빅데이터 기술 진화는 사실 이렇게 필연적이었다고 말할 수 있겠다. 이게 뭐 꼭 오늘날 직면하게된 문제는 아니고 5년 전부터 그 증상들이 이곳저곳에서 나타나고 있었지. 양키들이 NoSQL만들때 우리는 무얼했나? 뭐든 빨리빨리 아웃풋 내놓으라고 쪼아…

Terminate AWS instances with Java SDK

BasicAWSCredentials awsCredentials = new BasicAWSCredentials( AWSAccessKeyId, SecretAccessKey); AmazonEC2Client ec2Client = new AmazonEC2Client(awsCredentials); ec2Client.setEndpoint("ec2.us-east-1.amazonaws.com"); // Zone List<String> instancesToTerminate = new ArrayList<String>(); DescribeInstancesResult result = ec2Client.describeInstances(); List<Reservation> reservations = result.getReservations(); for (Reservation reservation : reservations) { List<Instance> instances = reservation.getInstances(); for (Instance instance : instances) { System.out.println("Terminating: " + instance.getInstanceId()); instancesToTerminate.add(instance.getInstanceId()); } } TerminateInstancesRequest term = new TerminateInstancesRequest(); term.setInstanceIds(instancesToTerminate); ec2Client.terminateInstances(term);

Mother Nature is harsh

Image
When I saw the documentary, "남극의 눈물", I was deeply shocked by the scene where giant petrel attacked a baby penguin.


Mother Nature is harsh.

[O'Reilly Radar] 빅데이터란 무엇인가?

Image
* You can see the original post here.

빅데이터는 전통 데이터베이스의 연산 수용능력을 초과한 "너무 크고, 빠르게 변하거나 데이터베이스에 구조화하기 힘든" 데이터를 말한다. 이런 데이터에서 가치를 얻으려면 대안을 찾는 수 밖에.

2012년 핫키워드 빅데이터는 거대한 데이터 3Vsvolume, velocity and variability를 싼 값에 다룰 수 있는 형태로 실용화되고 있다. 이런 빅데이터 내에 의미있는 패턴과 정보가 묻혀 있는데, 추출하는 일은 결코 쉽지 않아 예전엔 그냥 그대로 묻혀 있었다. 구글이나 월마트같은 소수의 선두기업만이 막대한 비용을 들여 빅데이터 처리 능력을 갖추고 있었지. 그러나 오늘날의 하드웨어, 클라우드, 그리고 오픈소스는 이제 싼 값에 클라우드를 렌트하여 사업하는 벤처기업마저도 빅데이터를 처리할 수 있게 도와준다.

빅데이터의 가치는 분석 용도와 신규 제품 개발에 활용되는 두 개의 분야로 나뉘는데, 빅데이터 분석은 그간 막대한 비용 뒷켠에 꽁꽁 숨어있던 인사이트를 찾는데 사용된다. 예를 들면, 쇼핑몰 고객의 거래내역, 사회적 지역적 데이터를 분석함으로서 고객들의 영향력을 분석한다. 또, 빠른 시간내 모든 데이터를 연산하는게 가능하여 샘플링하는 번거로움이 없고 사전 정의된 질의에 대한 정기적인 리포트를 뽑아내는 기존의 다소 정적인 방식 대신 새로운 데이터 분석과 교정작업을 필요할때 즉각 처리할 수 있다역자주: SQL 리포트 서비스나 비지니스 인텔리전스 Predefined or ad-hoc reports 참고.

지난 십여년 간 성공한 신생 웹 기업의 신규 사업과 서비스가 바로 이런 빅데이터를 잘 활용한 사례인데, 예를 들면, 페이스북은 사용자 행태와 친구관계를 분석함으로써 고급스럽게 개인화된 UX와 새로운 형태의 광고 사업을 만들어낸 것이다. 빅데이터 대부분의 아이디어와 솔루션이 구글, 야후!, 아마존 그리고 페이스북 등 기업에서 나온 것은 결코 우연히 아닌 것이다.

기업에 빅데이터…