Blog Article

모바일 광고를 위한 머신러닝에서 퍼스트 파티 데이터는 어떤 역할을 할까?

2023-02-03

모든 머신러닝은 학습하기 위해 데이터가 필요하며 이는 많을수록 좋습니다. 하지만 머신러닝이 ‘뛰어난’ 성과를 내려면 양뿐만 아니라 질적으로도 우수한 데이터를 통해 학습해야 합니다.

관련성 높은 자사 보유의 퍼스트 파티 데이터를 지속적으로 확보하여 머신러닝에게 학습시키는 것은 항상 중요했습니다. 하지만 정부 주도 규제, 플랫폼의 정책, 대중의 인식과 같은 외부 요인으로 인해 사용자 데이터를 확보하기 위한 환경이 달라졌죠. 또한 유저 데이터의 활용 목적에 있어 브랜드 인지도 제고보다는 측정 및 수익화를 위한 퍼포먼스 달성이 보다 강조되며, 퍼스트 파티 데이터 중심의 모바일 앱 유저 확보 전략은 이제 필수적인 요소가 되었습니다.

모바일 광고에서 데이터의 역할

마케터들은 오랜 시간 동안 타겟을 이해하고 그에 도달하여 상호작용하고자, 다양한 채널에서 수집된 폭넓은 정보를 활용해왔는데요. 그중에서도 핵심은 퍼스트 파티 데이터입니다. 퍼스트 파티 데이터는 유저와의 직접적인 상호작용을 통해 수집하는 데이터이며, 로그인이나 클릭부터 광고를 통해 구독이나 결제 등의 전환으로 이어지는 상호작용에 이르기까지 앱 내에서의 모든 유저 행동은 해당 앱의 퍼스트 파티 데이터를 구성하는 요소가 됩니다.

과거에는 퍼스트 파티 데이터 유저 정보를 서드 파티 데이터로 보완하기도 했습니다. 서드 파티 데이터란 특정한 주체가 아닌, 유저와 직접적인 관련이 없는 제3자에 의해 여러 소스를 통해 수집되는 데이터입니다. 모바일 생태계에서 가장 널리 사용되면서도 효과적이었던 서드 파티 데이터 소스로는 모바일 운영체제에 의해 제공된 유저 기기 레벨의 광고식별자입니다. 바로 Android ID(ADID)와 iOS의 광고 고유 식별자(IDFA) 말이죠.

퍼스트 파티와 서드 파티만이 유일한 데이터 소스만은 아닙니다. 세컨드 파티 데이터는 파트너사를 통하여 일정 수준의 유저 동의를 바탕으로 확보한 데이터를 가리킵니다. 최근에는 제로 파티 데이터 또한 점차 부상하고 있는데요, 이는 유저가 자발적으로 공유한 정보이지만 앱 내 행동과는 무관한 데이터를 가리킵니다. 예컨대 설문, 퀴즈, 양식 제출 등이 이에 해당됩니다. 광고주는 이처럼 다양한 데이터 소스를 활용하여 타겟을 면밀히 파악함으로써 신규 유저를 확보하기 위한 탄탄한 타겟팅 전략을 구축할 수 있습니다.

머신러닝에서 데이터의 역할

퍼스트 파티 데이터가 왜 중요한지를 알아보기 전에, 머신러닝 모델 전반에서 데이터가 어떤 역할을 하는지 살펴보겠습니다. 어떤 목표로 설계된 머신러닝 알고리즘이든 그 성과의 기반이 되는 것은 양질의 데이터입니다.

“콩 심은 데 콩이 난다"는 속담이 있는데 이는 특히 머신러닝에 정확히 들어맞는 격언입니다. 양질의 데이터가 없다면 그 어떤 머신러닝 모델에서도 우수한 결과를 기대하긴 어렵습니다. 모델과 무관하거나 잘못 분류된 데이터를 투입하면 부정확한 결과가 나올 수밖에 없기 때문이죠.

예를 들어, 고양이를 식별하기 위한 머신러닝 모델을 만든다면, 개나 도마뱀처럼 흔히 접할 수 있는 동물들의 이미지를 포함한 데이터 세트가 존재해야만 고양이가 아닌 동물의 식별자를 머신이 학습할 수 있을 것입니다. 그런데 데이터 세트에 선사시대 고양잇과 동물을 그린 이미지나 CAT 스캔 데이터처럼 부적합한 맥락을 지닌 데이터가 포함되어 있다면 모델의 학습이 왜곡될 수밖에 없죠.

그 어느 때보다 중요해지고 있는 퍼스트 파티 데이터

과거에는 모바일 성과 기반 광고주들이 퍼스트 파티와 서드 파티 데이터를 포함하여 다양한, 양질의 데이터를 활용할 수 있었습니다. 하지만 이제는 서드 파티 데이터 소스가 양적, 질적인 측면에서 모두 제한적이라 볼 수 있죠. 유럽의 GDPR과 미국의 CCPA와 같은 정책 변화, 그리고 애플의 앱 추적 투명성과 구글의 프라이버시 샌드박스와 같은 플랫폼 차원에서의 변화로 인해 모바일 퍼포먼스 기반의 마케팅에 활용할 수 있는 양질의 서드 파티 데이터가 현재는 제한적이게 된 것인데요. 이에 모바일 유저 확보를 목표로 하는 마케팅 또한 큰 영향을 받을 수밖에 없습니다. 많은 DSP들이 이러한 서드 파티 시그널에 의존하여 타겟 세그멘테이션을 수행하고 타겟팅 방식을 결정했기 때문이죠.

서드 파티 데이터 소스를 활용하는 모바일 광고 캠페인에는 커다란 문제가 존재하기도 하는데요. 우선 오류 및 적합성이 떨어지는 경우가 많으며 이는 특히 퍼스트 파티 데이터와 함께 사용하지 않을 경우 더욱 문제가 됩니다. 장기적으로는 법률적인 문제 및 부정적인 평판을 야기할 수도 있죠.

2022년 8월에 화장품 브랜드인 세포라(Sephora)는 자사의 이커머스 앱이 CCPA의 개인정보 보호 규정을 위배했다는 혐의로 인해 법적인 문제를 겪은 바 있습니다. 캘리포니아주 검찰과의 합의를 통하여 120만 달러의 벌금을 지불하게 되었고, 불과 한 달 후에는 GDPR을 위반했다는 혐의로 인해 인스타그램에 4억 5백만 유로의 벌금이 부과되기도 했죠.

설령 광고주가 양질의 서드 파티 데이터를 수집하고 막중한 벌금을 피해 간다고 하더라도, 해당 데이터를 광고 목적으로 사용하는 과정에서 최종 유저의 불만을 사 신뢰를 잃을 가능성이 높습니다. KPMG에 따르면 설문조사 응답자의 86%가 개인정보 보호 문제가 더욱 중요한 문제가 되었다고 답했으며, 40%는 기업이 고객 데이터를 윤리적으로 사용하리라는 것을 믿지 않는다고 밝혔습니다.

몰로코가 퍼스트 파티 데이터를 똑똑하게 활용하는 방법

몰로코는 머신러닝 모델 학습 과정에서 개인정보를 보호하면서 퍼스트 파티 데이터를 활용하는 방식을 항상 최우선시해 왔습니다. 광고주가 보유한 고유의 퍼스트 파티 데이터는 해당 앱에 가장 적합하고 유의미한 데이터이므로 학습 시간을 단축할 수 있으며, 캠페인을 론칭하기도 전에 그 어떤 비용없이도 학습을 진행할 수 있게 해줍니다. 따라서 마케터는 최초의 투자 수익률 목표를 며칠 혹은 몇 주 만에 신속하게 달성할 수 있지요. 길고 값비싼 훈련 기간을 단축해 절약한 예산을 캠페인 확장이나 퍼포먼스 향상 목적으로 활용한다면 결과적으로 더욱 큰 수익을 올릴 수 있습니다. 퍼포먼스 마케터는 앱의 퍼스트 파티 데이터를 활용해 입찰별 타겟팅 방식으로 보다 관련성 높은 광고가 노출되는 캠페인을 집행할 수 있는 것이죠.

퍼스트 파티 데이터에는 많은 장점이 있지만 이를 충분히 확보하기 어려운 경우도 존재합니다. 캠페인 초기에는 특히나 그렇죠. 또한 안정적인 소스에서 확보한 대량의 맥락 데이터로 훈련하더라도 새로운 규제나 데이터 구조와 같은 외부 요인으로 인해 여전히 데이터 편향성 문제가 발생할 수 있습니다.  

몰로코의 머신러닝 엔진은 타 대형 광고 플랫폼들과 마찬가지로 즉각적, 반복적 및 실시간인 최적화가 가능한 심층 신경망을 구축하고 있습니다. 딥 러닝 기술을 활용하여 자체 시스템 내에서 마케터가 보유한 가공되지 않은 퍼스트 파티 데이터를 학습하여 머신러닝 관련 언어로 변환하는데요. 그 과정에서 제한적인 양의 퍼스트 파티 데이터는 대량의 훈련 데이터 세트로 확장되며, 이를 바탕으로 탁월한 퍼포먼스를 이끌어내는 방법을 모델에게 가르칠 수 있습니다. 즉, 데이터가 제한적인 상황에서 여전히 높은 성과를 이끌어낼 수 있는 것이죠!

그뿐만 아니라 몰로코는 캠페인을 시작하기도 전에 고객의 가공되지 않은 퍼스트 파티 데이터를 활용해 모델을 훈련하기도 합니다. 몰로코의 머신러닝 모델은 고객을 대신하여 노출을 구매하기 전에 먼저 원하는 결과를 얻을 수 있는 입력 정보에 대해 학습합니다. 이는 모델을 훈련할 수 있는 충분한 양의 포지티브 샘플을 받을 때까지 기다리는 기존의 DSP와 대조되는데요. 기존 DSP의 이 프로세스는 ROAS를 달성하는 데 몇 달 또는 몇 분기가 걸릴 수 있습니다.

또한 개인정보 보호 규제는 마케터가 유저 기반을 확장하고 유저에게 특정 행동을 하도록 유도하거나 활동적이지 않은 유저의 재참여를 이끌어내기 위해 활용했던 기존 서드 파티 데이터 기반의  광고 전략을 크게 제한하는데요. 몰로코는 이에 유저의 전환을 오히려 더 끌어낼 수 있는 대안을 제공합니다. 몰로코의 추론 모델은 유저가 광고주가 설정한 캠페인 목표를 달성할 가능성이 있는지 판단하고자 입찰 요청을 평가하고 정해진 예산 내에서 적절한 입찰가를 계산합니다. 이 과정에서 제3자 추적을 가능케 하는 광고식별자인 IDFA는 필요하지 않습니다. 또한, 몰로코는 애플의 iOS 정책 변화를 빠르게 예측하여 SKAN 트래픽에 대한 여러 옵션들도 이미 제공해왔죠.

Editor’s choice

SKOverlay를 통해 iOS 퍼포먼스를 개선해보세요

iOS 14.5 및 SKAdNetwork(SKAN)의 광범위한 도입과 더불어, 애플은 SKOverlay라는 소재 렌더링 방식을 도입했습니다. (Apple’s developer guide) SKOverlay는 상호작용 가능한 광고 위에 배너 사이즈의 오버레이를 더해 보여주는 기술로, iOS 마케터들에 의해 널리 활용되고 있습니다.

몰로코 뉴스레터 구독하기

시작할 준비가 되셨나요?

지금 몰로코 전문가와 상담하세요!