느린 날들이 모여 멀어져간 오늘..·말로만 듣던 마흔

이미지 클레시피케이션 & 캡셔닝 이펙트

normalstory

2021년 12월 3일·3 분 읽기

표지 이미지

서비스 비지니스 모델링

- B2B, B2G 기술영업( 정제된 DATA, 솔루션, API 등)

- B2BC 사용자 참여형 리워드 플랫폼

- 초 개인화된 (광고 아닌,) 부가가치 서비스 제공

서비스 확장성

- OCR을 적용하여 성능과 활용범위를 향상시킨다

- 텍스트로 전환된 해석을 음성으로 읽어준다.

- 음성을 통해 사진에 대한 코멘트를 기록한다. 기록된 내용은 모델의 학습과 캡셔닝에 반영된다.

- 사진들(영상)의 범위로 확장한다.

- 누적된 데이터들은 장차, 문자를 다양한 해석과 의도가 반영된 이미지들로 변환하는데 기여한다.

서비스 핵심 벨류

- 비정형 데이터의 텍스트(문자열)화가 핵심이다.

- 의미기반 디지털라이제이션

이미지 클레시피케이션 & 캡셔닝 이펙트는 문자열로 뽑혀진 데이터는 분류, 검색이 가능하다는 점에서 시작한다.

자료를 데이터로 전환할 수 있다는 것이다.

이는 음성을 텍스트로 전환함으로써 취할 수 있는 이펙트와 유사한 맥락이다.

현상 또는 상황 -> 인식/기록/저장 -> 비정형 자료 -> 정형 데이터가 된다.

그리고 그 데이터가 필요한 사람을 만났을 때 -> 정보로 변환된다.

사람이 필사한 기록들, 스마트폰(카메라)로 찍은 사실들, 스마트폰(카메라)으로 촬영한 상황들을 데이터로서 검색할 수 있게 된다.

단순 디지털라이제이션이 아니라 필요할때 찾을 수 있다는 점이 주요한 포인트이다.

단순히 0과 1의 배열이 아닌, 각각의 배열에 의미를 부여할 수 있다는 점이 방점이다.

여기까지 요약하면, 이를 통해 이미지/영상 정보와 사람이 만날 수 있는 접점이 생겼다. 이다.

여기에 시점과 장소가 추가되면 그야말로 개인 최적화가 될 수 있다.

아시다시피, 이미 사진엔 장소 정보가 있다.

적절한 타이밍- 만 맞추면 되는데... 사진에는 이미 장소 외 '시간'뿐만아니라 사람(소셜네트워킹)을 비롯해 맥락 정보가 담겨있다.

더 놀라운 사실은, 포스팅의 제목에서 말하는 이펙트는 이제 시작이라는 것이다.

첫번째는 이미지(들 =영상)는 호불호가 서로 다르다. 그리고 상황에 따라서도 다르게 해석할 수 있다. 다시말해 취향성이 매우 뚜렷한 불분명한 해석성을 가지고 있다. 객관적인 해석은 불가능하지만 개인적 취향성을 매우 정확하게 도출할 수 있는 지표가 된다.

두번째는 이미지(들 =영상)사진은 문장과 다르다. 다시말해 문장을 이미지로 표현하는 것과 이미지를 문장으로 표현하는 것에 대한 뉘앙스가 다르다. 각 포지션으로의 전환에 대한 경우의 수는 동일하게 무한데에 가까울 수 있지만 각각의 정보가 독자(시청자)에게 닿았을 때의 경우의 수는 정반대이다. 이는 백문이 불여일견, 이라는 말로 대신할 수 있지 않을까 한다.

이 두가지 이펙트는 확산과 수렴을 x, y, z... 축으로 확산시킨다.

솔루션은 모델링 학습에도 활용될 수 있다. 아마도 가장 자연스러운 방법은 동화책을 통해 수집되는 사례를 들 수 있겠다. 이미지(분류, 해석)를 기반으로 부모의 음성과 아이의 피드백이 기록된다. 같은 이미지에 다양한 부모의 음성과 다양한 아이들의 피드백이 수렴된다.

아, 이런.

그럼 인공지능(?)도 꿈을 꿀 수 있겠구나.. !