Posts

Showing posts from 2019

공유 모빌리티 회사로 합류

Image
공유 모빌리티 시장 여러 자료를 살펴보니 2010년부터 공유 모빌리티 시장이 빠르게 발전하기 시작했다.  최근에는 1천만명 이상으로 성장했고 Frost & Sullivan에 따르면 2025년까지 그 이용자 수는 3600만 명으로 연간 성장률은 16.4% 성장을 예측하고 있다. Global Market Insights는 2024 년에 전세계 자동차 공유 시장의 가치를 110억 달러로 예측한다. 
현재 주요 공유 모빌리티 시장은 서유럽과 미국이며, 전문가들은 아시아가이 분야에서 가장 빠른 성장을 경험할 것이라고 예측하고 있다. 그랩이라는 회사는 동남아 8개국 336개 도시에 각종 모빌리티 서비스를 제공하는 세계 3대 차량 공유 서비스로 성장해있다.
Source: Frost & Sullivan, Future of Car Sharing Market to 2025
한국은? 이건 지극히 내 생각이지만, 현재 이용 고객은 300만 정도 되는 것 같다. 디디추싱이 한국 진출을 노리고 있지만 국내 플레이어도 빠르게 움직이고 있다보니 2배는 문안하게 성장 가능하지 않을까 생각한다.

B2C만 보았을 땐 규모에 경제 특성이 있어서 자연독점으로 가게 될 공산이 크고, P2P 우버 처럼 규제를 벗어나 다양한 서비스로 진화할 수 있을지는 미지수.

성공 키포인트? 카셰어링 서비스는 휴대폰에 앱을 설치하면 계정을 등록하고 차량을 렌트하며 시간과 함께 이동 거리를 측정하고 렌트 비용을 지불하는 방식으로 동작한다. 이 과정에 신뢰성과 유용성은 고객 만족에 영향을 미치는 주요 문제 중 하나다. 그 중 가장 중요해보이는 3가지는 아래와 같다:

등록 절차 – 보안 상의 이유로 자동차 공유 회사는 운전 면허증, 신용 카드 번호 또는 개인 신분증 사진 등을 요구한다. 사용자를 유지하려면이 프로세스의 단순화와 신뢰성을 극대화해야한다.신뢰성 – 코드 및 이미지 스캐닝, GPS, 지불. 모든 프로세스를 올바르게 처리하려면 응용 프로그램의 각 구성 요소가 매끄럽고 빠르게 실행되고 가능한 적은 배…

인간 본성의 법칙 (책 리뷰 + 잡담)

Image
점심 먹고 서점에 들러서 집어든 책이 하나 있다. "인간 본성의 법칙", 몇 장 읽어보면서 바로 몰입되는 책. 아직 다 읽지 못해서 리뷰 하긴 뭐 하지만, 과거 내 행동들에 대한 부끄러움, 감정을 배제한 이성적 의사결정에 큰 깨달음을 얻었다.

 사실 표정이 순수하고 자연스럽지 못한 사람은 그 입에서 아무리 유식하고 논리 정연한 이야기가 나온다 해도 본능적으로 의심하게 되지 않나?


 인간의 본성을 이해하고, 나를 이해하고, 내 행동들을 조금 더 이성적으로 결정한다면 아마도 나는 더 좋은 사람이 될 수 있으리라. 마음을 비워라. 감정을 내려놓자.

무한의 세계

무한 집합의 크기Cardinality, 즉 원소의 개수를 수학에서는 '농도'라고 말한다. 유한 집합의 크기는 그대로 원소의 개수 이지만, 무한 집합의 경우는 원소의 개수를 낱낱이 셈하는 것은 불가능하기 때문에 '농도'라는 말을 사용하고 히브리 문자 ℵ로 표시하고 aleph라 읽는다.

자연수 전체의 개수, 즉 농도가 ℵ0인 집합은 \(\{ℵ0,ℵ1,ℵ2,…\}\) 와 같이 자연수로 번호Index를 붙일 수 있는 집합이라 하여 가부번 무한(집합)이라고 하고 \(\{ℵ_n : n ∈ ℕ\}\) 와 같다.

자연수 다음에 등장하는 것은 유리수(분수)이다. 분수는 직선 상에서 아무리 짧은 부분을 잡아도 그 속에 또 분수가 촘촘히 박혀 있다. 즉, 유리수의 집합은 조밀한 농도를 지닌다. 그러나, 분수 전체의 집합도 자연수의 집합과 1대 1 대응이 가능하며, 따라서 유리수 집합도 같은 가부번 집합이다.

그런데, 0 에서 1 사이의 선분 상의 점을 나타내는 수들의 집합은 아무리 해도 1, 2, 3, ...과 같이 번호를 매길 수 없다. 실수 집합의 농도는 연속의 선분 상의 점의 개수와 같기 때문에 연속체 농도 또는 비-가부번 농도라고 부르며, ℵ1으로 나타낸다. 즉, 실수의 집합은 자연수보다 훨씬 큰 무한 집합이다.

거시세계와 미시세계가 프랙탈 구조로서 연속되어 있다는 석가모니의 우주관에서 소름이 돋을수 밖에 없다! 우주의 무한 크기에 놀랄 것 없이 우리 자체가 훨씬 큰 무한일지 모르겠다.

음성 인공지능 스타트업의 기회 분석

음성 인공지능 분야에서 스타트업이 생각해볼 수 있는 전략은 아마 다음과 같이 3가지 정도가 있을 것이다:

독자적 Vertical 음성 인공지능 Application 구축기 음성 플랫폼을 활용한 B2B2C 형태의 비지니스 구축기 음성 플랫폼 생태계 내에 3rd party 서비스 구축
(1) 의 접근은 도메인 특화된 Standalone 음성 인공지능 Application을 만드는 방법이다. (2) 의 접근은 기 음성 플랫폼 비지니스 사업자에 특수 분야 기술을 제공해서 최종적으로 소비자에게 전달되는 B2B2C 형태의 사업 추진이다. 마지막으로 (3) 은 기 음성 플랫폼 내 3rd party 서비스를 개발하여 소비자에게 제공하는 방법이다. 지금부터 하나씩 사례와 함께 자세히 살펴보자.

1) 독자적 Vertical 음성 인공지능 Application 구축

너무 당연한 얘기지만 스타트업이 구글이나 아마존의 범용 음성인식과 차별없는 음성 인식을 통해 경쟁하려 든다면 그것은 별로 좋은 아이디어는 아니다. 구글이나 바이두와 같은 막강한 기업 만큼의 예산과 기술을 갖추고 있지 않기 때문에 무조건 백전 백패다.

그러나, 특정 산업에 특화된 문제를 발굴하고 AI를 결합해 그 문제를 해결하는 접근으로 속도를 내고 있는 Vertical AI 스타트업이 있다. 대표적으로 Chorus.ai와 한국의 리뷰와이저(?), 액션파워 정도가 될 것 같다.

코러스의 창업자는 도메인 특화된 버티컬 엔진이 (경험적으로 퉁쳐서) 일반 범용 엔진보다 최소 15% 향상된 성능을 낼 수 있다고 한다. 국내 Vertical voice AI 회사도 만나본 적은 있지만 개인적으로 나눈 대화다 보니 특별히 언급은 생략한다.

뭐 여하튼 (정량적 평가 수치는 확인할 수 없었으나) 기술적으로 따져보았을 때 명백히 narrow domain으로 접근하면 자연어 처리에 있어 그 복잡도를 낮추고 결론적으로 높은 성능을 낼 수는 있을 것이다.

이 때문에 도메인 특화된 음성 인식 엔진은 당장 빠르게 우위를 점할 수 있다는 점은 분명하…

CTC 손실 함수

\(L\)을 label의 집합, \(L’\)을 공백이 포함된 label의 집합이라고 하자. 길이 T를 갖는 sequence에 대하여, 모든 가능한 paths(network output)의 집합을 \(L’^T = \pi\) 라 하자. 실제 labeling z를 갖는 input x에 대하여, 제대로 labelling이 될 확률을 최대화 하는 문제가 된다. 이후에 maximum likelihood estimation 을 이용해 최적화한다.

\(\hat\theta = arg \max_{\theta} \prod_{i=1}^N p(Z^{(i)} | X^{(i)} ; \theta)\)

output에서 얻은 labels에서 중복되는 label과 공백을 없애는 n:1 함수를 B라고 정의하자. 함수 B는 “Collapsing” operation한다고 칭한다. 예시는 다음과같다.
B(_A__AAAA_BBBCCCC) = B(A_A_BBBB_CC) = AABC

B의 역함수 B-1 가 정의 가능하며, 이 함수는 ground truth에 대하여 모든 possible paths로 map이 가능하다.
B-1(ABCC) = -A-AAA-BBBCCC, 등등등등등 (1:n 함수?형태)

역함수의 성질을 수식으로 표현하면 우측과 같다: \(\{ B(x)|x \in B^{-1}(z)\} = z \)

이제, 주어진 labelling z에 대한 가능도를 정의할 수 있으며, z로 Collapse 가능한 모든 paths가 나올 확률의 합으로 가능도를 정의할 수 있다.

\(p(Z|x ; \theta) = \sum_{\pi \in B^{-1}(z)} p(\pi | x ; \theta) \)

앞서 본 인풋x에 대해 labeling z 를 최적화 하려는 식(아래의 식) 안에 대입을 하고 합의 형태로 바꿔 minimazation 문제로 바꾸면 최종식은 다음과 같다.

\(\hat\theta = arg \max_{\theta} \sum_{i=1}^Nlog [ \sum_{\pi \in B^{-1}(z^…