March 25, 2014

8년 간의 IT 직장생활과 오픈소스

본래 컴퓨터 사이언스 전공이 아니라서 IT업종에서의 8년간의 직장생활과 오픈소스 생활은 참 험난했고 다양한 사람들을 만났다.

국내 최대 모 포탈 회사, 분산시스템 팀에 입사해서 "회사에 기여하고 정당하게 평가받고 싶은데, 내 아이디어만 뺏기는것 같다"니까 "그럴려고 뽑았다"라는 인간이 있지 않나 (오픈소스로 넘어오지 않았다면 지금 내 이름은 어디에도 없었을 것),

오픈소스 같이 해보자 으쌰으쌰 하는 것도 한 순간, 정작 주변/상사 눈치 보며 외면하지를 않나 (이건 뭐 먹고살아야하는 현실적인 문제라 나도 어쩔 수 없었다고 생각한다),

팀 멤버 의견이 본인 마음에 들지 않는다며 중국인이 개설한 중복 프로젝트로 살짝 들러붙지를 않나 ..

다 잊은 지금은 이런저런 꼬투리를 붙잡고 늘어지지를 않나 ...

그 사람들이 단지 나를 시기하고 질투하고 견제하는 것이면 행복하겠다.
그게 아니라, 내가 잘못한 것이 있다면 대놓고 지적해주면 행복하겠다.

March 4, 2014

대한민국의 데이터 규모는?

위키피디아에 따르면 국내 최대포탈 네이버의 하루 평균 페이지뷰는 860,000,000. 웹로그 한 라인의 평균을 150 bytes라고 계산하면 (referrer URL 추가해서 이정도라고 계산),

하루: 196 GB
일년: 69 TB
10년: 698 TB

99년도 창립 이후 지금까지 14년정도 운영해왔으니 대충 계산해도 access log는 700 TB정도 밖에 안되는거다.

그럼 페타바이트 규모의 데이터는 어디에?

무시무시한 속도로 생성되는 웹 문서, 웹 메일 정도 되겠다. 검색엔진 서비스 개선을 위한 페이지랭크, 스팸필터링, 그리고 문서 클러스터링 요런거 말고 할 것이 별로 없다 (이런 필요성에 MapReduce 모델이 나온 것이다). 아마 분석보다는 스토리지 문제에 포커싱해야겠지.

이런 데이터가 전체 데이터의 90% 이상을 차지하는 것이고, 오늘날 빅데이터가 말하는 "사용자 성향 분석", "추천엔진" 뭐 그런 것들에 필요한 인풋 데이터는 실질적으로 네이버 규모에서도 그 사이즈가 GB ~ TB 수준일 수 밖에 없다.

그러면, 네이버 웹스케일이 아닌 다른 회사들의 전자데이터는 과연 얼마나 될까? :-) 

뭐 외국도 사실 마찬가지다. 몇 테라바이트 트윗 데이터에서 어떤 분석을 위해 사용자 인터렉션 구조를 추출해봐야 몇 GB 되지 않는다.

고급 분석에서는 데이터 사이즈가 문제되는게 아니고 계산 복잡도가 문제인 것을 사람들은 알아야해.