이산확률변수 \(X = x_1, x_2, \cdots, x_n\) 일 때, 각 확률 \(P = p_1, p_2, \cdots, p_n\)의 합은 \(\displaystyle\sum_{i=0}^n p_i = 1\) 이 된다. 이산확률변수의 평균(기대값)은 \(E(x) = \displaystyle\sum_{i=0}^n x_ip_i\)로 정의된다. 보통 통계에서는 mean 이라고 하며 우리가 아는 그 평균이다. 가령, 10, 20, 30의 평균을 구해라 이러면 각 변수의 확률은 1/3이 되니까, \(\frac{10 + 20 + 30}{3}\)과 같이 식이 간소화 된다.
분산은 각 변수에 mean 값을 뺀 제곱에 확률 값을 곱한 것의 합으로 정의되는데 \(V(x) = \displaystyle\sum_{i=0}^n (x_i - m)^2p_i\), 값이 작으면 조밀하고 크다면 퍼져 있다라고 이해할 수 있다. 마지막으로 표준편차는 분산에 sqrt를 씌우면 되는데 \(\sigma(x) = \sqrt{\displaystyle\sum_{i=0}^n (x_i - m)^2p_i}\) 평균으로부터 얼마나 떨어져 있는지를 나타내는 값이 된다.
그러면 예를 들어보자, 웹사이트 방문자 모집단 체류 시간을 모아서 2d plotting 하면 분포를 눈으로 볼 수 있겠고 (이것만 보더라도 알 수 있는게 많음), 평균, 분산, 표준편차를 구하면 어떤 사용자가 이질적인 성향을 보이는지 등을 추적 할 수 있게 된다.
Subscribe to:
Post Comments (Atom)
-
음성 인공지능 분야에서 스타트업이 생각해볼 수 있는 전략은 아마 다음과 같이 3가지 정도가 있을 것이다: 독자적 Vertical 음성 인공지능 Application 구축 기 음성 플랫폼을 활용한 B2B2C 형태의 비지니스 구축 기 음성 플랫폼...
-
패밀리 세단으로 새차 구입은 좀 무리일 것 같아서, 중고로 하나 얻어왔습니다. 중고차라고 티 내는건지 :-) 시거잭에 전원이 안들어오더군요. 요즘 참 세상 좋아졌다고 생각드는게, 유튜브에서 시거잭 전원 불량에 대한 단서를 얻었습니다. 바로 퓨즈가 나가...
-
개발자 컨퍼런스같은 것도 방문한게 언제인지 까마득합니다. 코로나로 왠지 교류가 많이 없어졌습니다. 패스트캠퍼스로부터 좋은 기회를 얻어 강연을 하나 오픈하였습니다. 제가 강연에서 주로 다룰 내용은, 인터넷 역사 이래 발전해온 서버 사이드 기술들에 대해 ...
I've read all your post and It's really amazing , I can say. Keep it up and I will follow every single one of them :)
ReplyDelete