Posts

Showing posts from March, 2014

8년 간의 IT 직장생활과 오픈소스

본래 컴퓨터 사이언스 전공이 아니라서 IT업종에서의 8년간의 직장생활과 오픈소스 생활은 참 험난했고 다양한 사람들을 만났다.

국내 최대 모 포탈 회사, 분산시스템 팀에 입사해서 "회사에 기여하고 정당하게 평가받고 싶은데, 내 아이디어만 뺏기는것 같다"니까 "그럴려고 뽑았다"라는 인간이 있지 않나 (오픈소스로 넘어오지 않았다면 지금 내 이름은 어디에도 없었을 것),

오픈소스 같이 해보자 으쌰으쌰 하는 것도 한 순간, 정작 주변/상사 눈치 보며 외면하지를 않나 (이건 뭐 먹고살아야하는 현실적인 문제라 나도 어쩔 수 없었다고 생각한다),

팀 멤버 의견이 본인 마음에 들지 않는다며 중국인이 개설한 중복 프로젝트로 살짝 들러붙지를 않나 ..

다 잊은 지금은 이런저런 꼬투리를 붙잡고 늘어지지를 않나 ...

그 사람들이 단지 나를 시기하고 질투하고 견제하는 것이면 행복하겠다.
그게 아니라, 내가 잘못한 것이 있다면 대놓고 지적해주면 행복하겠다.

대한민국의 데이터 규모는?

위키피디아에 따르면 국내 최대포탈 네이버의 하루 평균 페이지뷰는 860,000,000. 웹로그 한 라인의 평균을 150 bytes라고 계산하면 (referrer URL 추가해서 이정도라고 계산),

하루: 196 GB
일년: 69 TB
10년: 698 TB

99년도 창립 이후 지금까지 14년정도 운영해왔으니 대충 계산해도 access log는 700 TB정도 밖에 안되는거다.

그럼 페타바이트 규모의 데이터는 어디에?

무시무시한 속도로 생성되는 웹 문서, 웹 메일 정도 되겠다. 검색엔진 서비스 개선을 위한 페이지랭크, 스팸필터링, 그리고 문서 클러스터링 요런거 말고 할 것이 별로 없다 (이런 필요성에 MapReduce 모델이 나온 것이다). 아마 분석보다는 스토리지 문제에 포커싱해야겠지.

이런 데이터가 전체 데이터의 90% 이상을 차지하는 것이고, 오늘날 빅데이터가 말하는 "사용자 성향 분석", "추천엔진" 뭐 그런 것들에 필요한 인풋 데이터는 실질적으로 네이버 규모에서도 그 사이즈가 GB ~ TB 수준일 수 밖에 없다.

그러면, 네이버 웹스케일이 아닌 다른 회사들의 전자데이터는 과연 얼마나 될까? :-) 

뭐 외국도 사실 마찬가지다. 몇 테라바이트 트윗 데이터에서 어떤 분석을 위해 사용자 인터렉션 구조를 추출해봐야 몇 GB 되지 않는다.

고급 분석에서는 데이터 사이즈가 문제되는게 아니고 계산 복잡도가 문제인 것을 사람들은 알아야해.