A/B測試:驅動數字創新的隐形力量
A/B測試是一種以随機對照實驗為底層邏輯、以數據驅動為核心思想的數字技術。在數字化時代,A/B測試被企業廣泛應用,成為驅動企業數字創新的隐形力量。借助A/B測試,企業可以在數字創新過程中快速、高效且低成本地評估和選擇創新方案,推動數字産品不斷疊代和優化,實現持續的創新和增長。
文 / 鄒騰劍、孫旭航、熊霏
“早試錯,常試錯,敢試錯”(Fail early, fail often, fail forward)這一箴言,被矽谷的許多科技公司奉為圭臬。面對外部環境的不确定性,以A/B測試為代表的全新産品疊代策略的湧現,讓企業能夠大膽創新、頻繁試錯。然而,這種鼓勵快速測試新想法和新思路的策略是否真的有助于企業的成功?為了回應這一質疑,科甯(Koning)等學者對2008年至2013年間成立的全球35262家高科技初創企業展開追蹤研究。結果顯示,雖然采用A/B測試的企業相對較少,但相比于其他未采用A/B測試的企業,他們的表現更為出色:平均每周網站訪問量提升約10%,獲得風險資本融資的概率增加5%,推出新産品的比率提高9%至18%。A/B測試猶如李白詩中“深藏功與名”的俠客,默默無聞地推動着企業的數字創新,對數字經濟發展的重要意義不容小觑。
為深入理解A/B測試及其作用,本文首先介紹A/B測試的内涵、起源、發展現狀和行業應用,然後闡述A/B測試的理論基礎和作用機制,最後分析A/B測試可能帶來的負面影響,并提出管理者駕馭A/B測試的有效策略。
A/B測試的内涵
A/B測試是一種以随機對照實驗為底層邏輯、以數據驅動為核心思想的數字技術,它将用戶随機分配至兩個或兩個以上版本的數字産品、服務、設計或策略等數字方案中,最終通過對比實驗結果來評估确定最優方案。例如,華為App Gallery Connect(AGC)服務提供A/B測試功能,幫助應用開發者基于用戶群體創建多個對比實驗(見圖1)。通過這些實驗,開發者可以獲得關鍵對比數據,從而選擇最符合用戶需求的應用界面、産品功能或營銷方案。
在數字時代,A/B測試是一種快速、高效且低成本的決策工具。A/B測試的底層邏輯是随機對照實驗,它将用戶随機分配到實驗組和對照組,通過實驗來測試預先提出的假設,從而明确因果關系。基于此,實驗者可以了解哪些因素能提升産品績效,哪些因素會降低産品績效,從而有針對性地對産品進行優化。此外,A/B測試也是一種大數據驅動的數字技術,企業可以通過A/B測試收集大量用戶數據進行分析,據此得出可靠結論。總之,A/B測試的實驗邏輯和大數據特性不僅加快了企業在數字創新過程中的決策速度,也提升了決策精準度,使之成為驅動企業數字創新的隐形力量。
A/B測試的起源及發展現狀
A/B測試最早起源于醫學領域的随機對照雙盲實驗。在大航海時代,船員因長途跋涉而飽受壞血病的困擾。為了尋找有效的治療方式,1747年,英國皇家海軍軍醫詹姆斯·林德做了人類曆史上第一個随機對照實驗:他先将12位生病的船員分成6組,讓他們分别食用不同的輔食配方(見圖2),食用橘子和檸檬的那一組船員最終康複。由于時代的局限性,林德當時沒能發現橘子和檸檬中含有的維生素C可以治療壞血病,但他的實驗标志着檢驗藥物有效性的方法從蒙昧走向科學,對人類戰勝壞血病具有裡程碑意義。A/B測試在醫學領域的應用不僅改變了人們對壞血病的認知,也為現代醫學研究奠定了科學的基礎,為更多患者帶來了福音。
林德的随機對照實驗點燃的科學之光照亮了醫學、工程學和社會科學等多個領域探索嚴謹因果關系的道路。随着互聯網行業的崛起,林德的實驗思想跨越時空與數字技術相逢,為互聯網行業的數字創新帶來了數據和實驗驅動的全新思路。經典的林德實驗在互聯網時代重新煥發生機,獲得了一個時髦的名字:A/B測試。
谷歌是互聯網行業公認的A/B測試先驅。2000年,谷歌的工程師開展了互聯網領域的首個A/B測試,用于評估搜索結果首頁返回多少項搜索結果更合适。雖然這次測試因為搜索結果加載速度過慢失敗了,但谷歌從此成為了A/B測試的忠實擁護者——僅2011年一年,谷歌就進行了七千多次A/B測試來幫助優化産品功能。現在,谷歌每月都會上線幾百個大大小小的A/B測試,這些實驗每年直接給公司帶來超過10億美元的增收,充分彰顯了互聯網公司“數據驅動決策”的發展理念。
谷歌的大獲成功,點燃了各大互聯網公司應用A/B測試的熱情。每年有數以萬計的A/B測試被谷歌、亞馬遜、易貝(eBay)、臉書(Facebook)等先行者廣泛應用于數字産品疊代、用戶體驗改進、算法優化、廣告投放等方方面面,A/B測試的應用與推廣已呈燎原之勢。
與發達國家相比,A/B測試的思想和實踐在我國市場紮根較晚,這與市場的發展階段息息相關。在早期的“爆發增長”階段,我國互聯網市場擁有巨大的紅利空間,用戶群體迅速增長,互聯網滲透率逐年提高,大多數互聯網公司不需要實施複雜的數字實驗就能快速獲得大量用戶。在這樣的市場環境下,企業更傾向于迅速推出産品或服務,占據市場先機。然而,随着市場逐漸飽和,競争日趨白熱化,用戶獲取成本上升,早期輕易就能獲得的市場紅利開始消失。為了在激烈的市場競争中脫穎而出,企業必須具備高技術壁壘和強大的效率優勢,這就要求經營者們精益求精,在數字實驗中探索和捕捉機會,實現持續創新和增長。
随着數字技術的蓬勃發展,國内一些企業開始意識到數字實驗驅動創新的重要性,嘗試從“野蠻生長”轉向“精耕細作”。近年來,以字節跳動、百度、阿裡巴巴、騰訊為代表的中國本土互聯網公司開啟了A/B測試的“西學東漸”之路。其中,作為互聯網領域的佼佼者,字節跳動可以說是A/B測試的“頭号粉絲”。早在2012年成立之初,字節跳動就在内部使用A/B測試,其旗下著名短視頻平台“抖音”的名字,正是經過A/B測試和人為判斷綜合考量的結果。“獨樂樂不如衆樂樂”,曆經十年打磨,字節跳動已成功将A/B測試産品化和商業化,并通過旗下的火山引擎DataTester向企業客戶開放。截至2023年6月,火山引擎的A/B測試平台DataTester已累計進行二百四十萬餘次A/B測試,日新增實驗四千多個,同時運行實驗五萬多個,服務了美的、平安銀行、得到等上百家标杆客戶。在字節跳動的輻射帶動下,神策數據、百度、雲眼、LeanCloud等平台相繼推出A/B測試服務。可以預見,A/B測試将在中國市場發揮越來越重要的作用,為企業創造更大的商業價值。
A/B測試在不同行業的應用
互聯網巨頭在A/B測試的普及進程中起到了引領性作用。在目睹實驗的“威力”後,越來越多企業成為A/B測試的追随者,A/B測試逐漸在電商、影視、通信、金融、咨詢、遊戲、軟件等行業得到廣泛應用。
電商行業
與其他行業不同,電商行業通常不存在“一刀切”的解決方案,對某個品牌有效的特定策略可能對另一個品牌完全無效。因此,電商行業的A/B測試是一個綜合性極強、需要精細管理和快速反應的過程,它要求賣家深入了解自己的客戶、産品和市場環境,以便制定最有效的銷售策略。
作為國内領先的電子商務平台,京東通過智能店長工具向賣家提供A/B測試服務,以評估和優化其在線商店的用戶體驗和銷售效果(見圖3)。借助智能店長,賣家可以自行設置實驗周期、分流占比等參數,對商品主圖進行A/B測試,觀察不同版本主圖對銷售轉化的促進作用。事實證明,選擇使用A/B測試的賣家獲得了可觀的回報——主圖實驗通過數據驅動幫助賣家更有效地利用流量,使搜索側點擊率平均提升了2%—3%,A/B測試帶來的商業效益可見一斑。
影視行業
在快節奏的網絡時代,企業常常使用A/B測試來對網站界面、推送内容等進行實驗,以吸引越來越沒有耐心的訪客。愛奇藝是中國高品質視頻娛樂服務提供者的代表,擁有超過1.2億會員。目前,愛奇藝A/B測試實驗系統已經服務于公司多個業務線,真正實現了“數據驅動業務”。
提升用戶使用時長是愛奇藝的重要目标之一,為了實現這個目标,愛奇藝的産品團隊在2021年對APP的電視劇頻道頁進行了UI改版A/B測試。他們對訪問過電視劇頻道頁的用戶畫像進行分析,針對性地調整了頻道頁的UI交互設計(見圖4)。測試結果顯示,新版頻道頁使人均正片觀看時長提升了17.85%,說明新版頻道頁在用戶體驗上顯著優于舊版頻道頁,這為産品優化提供了重要的決策依據。
通信行業
數字化轉型進入全新階段,通信行業正積極搶抓新一輪戰略機遇,力争在數字經濟發展的“新藍海”中勇立潮頭。4G管家是中國移動為4G用戶專門定制的移動端APP。為了提高APP的留存率和活躍度,産品部門提出了一個更新計劃:将APP首頁的業務文案由“話費餘額”修改為“話費賬單”(見圖5)。為了驗證這項改動的合理性,他們采用A/B測試對兩個版本的用戶進行了行為對照實驗。三周過後,後台數據明确顯示:與原版相比,實驗版本的“話費賬單”文案導緻核心業務數據下降近23%。這表明用戶對實驗版本文案的接受度并不高。産品團隊綜合考慮了用戶使用餘額業務的情況以及這一業務的核心價值,最終決定放棄此次改動。中國移動的A/B測試經驗提醒我們:用戶使用産品有固有的習慣和認知,新想法的成效最好還是交由“實驗”檢驗。
A/B測試的理論基礎
A/B測試為何具有如此大的威力,背後機理何在?A/B測試本質上是一種數字實驗(digital experimentation),組織和戰略領域圍繞實驗(experimentation)的研究為我們理解A/B測試的驚人力量提供了重要理論視角。
開展實驗對企業來說并非新鮮事。早在1969年,西蒙(Simon)就提出測試和實驗是企業研發過程中的有效策略。此後,學者們探究了不同場景下不同類型的實驗對企業創新、績效等各方面的積極影響,包括對産品、商業模式、創業機會等的實驗。這部分文獻的核心觀點是,實驗是企業産生新知識和應對内外部不确定性的一種重要戰略。通過實驗,企業可以測試不同的策略或假設,并基于數據和因果關系作出決策,這有助于企業更好地适應内外部環境的變化、提高決策效率和質量。
實驗之所以有這些功效,是因為它可以促進組織學習,學術界把這種類型的組織學習稱為實驗型學習(experimental learning)。具體來說,實驗型學習指的是企業有意地創造對比條件來測試因果關系并産生新知識的過程。與經驗學習(experiential learning)、認知學習(cognitive learning)、替代學習(vicarious learning)等傳統學習方式相比,實驗型學習能夠幫助企業快速、高效且低成本地進行知識的獲取、吸收、整合和利用,因而能夠更好地提升企業在創新活動中的決策效率和決策質量。
實驗型學習發生在企業的實驗過程中。根據哈佛商學院斯蒂芬·湯姆克(Stefan Thomke)教授提出的實驗疊代循環模型(見圖6),企業的實驗一般包含四個階段:設計(design)、構建(build)、運行(run)和分析(analyze)。在設計階段,實驗者明确實驗的目标和方向,并進行實驗構思和設計。在構建階段,實驗者構建進行實驗所需的原型或模型。在運行階段,實驗者在真實或模拟的環境中運行實驗,并捕捉和收集相關數據。最後,在分析階段,實驗者分析和評估實驗中收集到的數據,嘗試理解其中蘊含的因果關系。如果分析的結果令人滿意,則停止實驗,基于實驗結果進行決策。否則,實驗者将依據從實驗中學習到的知識改進設計并重新疊代。
從實驗中學習(learning by experimentation)是實驗疊代循環模型中不可或缺的一環,也是A/B測試等數字實驗手段能夠為企業創造巨大價值的關鍵所在。通過開展實驗、從實驗中學習的疊代循環,企業可以不斷地獲取新的知識和見解,并在此基礎上進行進一步調整和疊代,從而為企業創新提供持續動能。
A/B測試驅動數字創新的機制
作為一種以随機對照實驗為底層邏輯、以數據驅動為核心思想的數字技術,A/B測試可以為企業帶來諸多的好處,包括幫助企業提升績效、降低風險、優化用戶體驗、提高市場競争力等。在數字化時代,A/B測試的重要性和影響力不斷提升,逐漸成為企業數字創新的關鍵驅動力。A/B測試是如何驅動企業數字創新的呢?本文總結了以下幾項作用機制。
第一,激發數據驅動決策的潛力以促進創新。
在數字化時代,數據成為企業最為寶貴的資源之一。通過對數據的收集、處理、分析和利用,企業可以基于真實數據和用戶反饋進行決策,而不是僅僅依賴于直覺和經驗。這有助于降低企業決策過程中的不确定性,提高決策的客觀性和準确度。在A/B測試過程中,企業通過收集和分析大量的用戶行為數據來了解不同産品方案或策略變化對産品績效的影響,并最終根據從數據分析中獲得的見解來優化數字産品。這種基于實驗數據進行創新決策的模式可以幫助企業快速、客觀、準确地檢驗假設,引導企業傾聽用戶的聲音,有針對性地通過創新來解決用戶的痛點,為用戶創造更高的價值。
第二,降低實驗成本以促進創新。
傳統實驗的開展通常需要耗費大量的資源和時間,且伴随着高昂的成本和巨大的風險,因此,企業往往隻能小心謹慎且精打細算地進行小規模和低頻率的實驗。這延緩了企業通過實驗獲取新知識的速度和質量。與傳統實驗相比,A/B測試極大地降低了實驗成本,使得企業能夠在相對較低的成本下評估新想法。一方面提高了企業對創新失敗的容忍度和員工參與創新的積極性,鼓勵員工提出更多的創新想法進行實驗;另一方面也促使企業更頻繁地進行測試和實驗,以尋找最有效的創新路徑,從而推動了企業在數字創新過程中“小步快跑”、快速疊代,實現高效創新。
第三,培育試錯疊代的實驗文化以促進創新。
A/B測試不僅是有效的實驗手段和決策工具,還是企業創新文化的催化劑。具體而言,A/B測試強調主動試錯和快速疊代的重要性,将實驗的失敗視作學習的機會而非成本,鼓勵員工不斷提出和檢驗創新想法,并基于實驗結果進行快速調整和疊代。通過采用A/B測試,企業可以逐漸形成一種積極進取、勤于探索、敢于冒險、勇于試錯的實驗文化。這種文化有助于推動創新想法的不斷湧現,促進企業數字創新的蓬勃發展。
綜上所述,A/B測試不僅能通過數據驅動和科學實驗的方式幫助企業獲取新的知識,還能塑造企業擁抱風險和容忍失敗的創新文化,從而推動企業不斷疊代和優化數字産品,實現持續的創新和增長。
A/B測試可能存在的負面影響
A/B測試可以有效促進數字創新,但也可能帶來一些負面的影響。
第一,A/B測試可能引發“數字剝削”這一商業倫理問題。
數字剝削指的是企業使用A/B測試來探尋優化産品績效指标(如轉化率、購買率、點擊率)的策略時,可能會剝削用戶的資源(時間、金錢、健康)。數字剝削現象在數字産業中廣泛存在,比如電商使用A/B測試來尋找促進用戶非理性消費的策略,短視頻App運用A/B測試來研究把用戶“黏在”App上持續不斷刷短視頻的産品設計,遊戲運營商通過A/B測試來尋找使用戶遊戲時間更長、購買裝備更多的遊戲設計方案。
A/B測試的數字剝削性主要體現在兩個方面。一方面,企業使用A/B測試的目的是判斷哪些優化策略可以提升産品的績效指标,因而在實驗過程中較少關注用戶的利益,甚至可能故意剝削用戶,助推用戶花更多的時間和金錢在企業的産品和服務上。另一方面,企業開展A/B測試及收集相關數據往往是在用戶不知情的情況下進行的。A/B測試不僅幫助企業“掠奪”了用戶的資源,同時還侵犯了用戶的數據隐私。
第二,由于A/B測試可以快速、高效且低成本地驗證創意,企業員工可能提出大量未經深思熟慮的創意來測試,這不僅會造成企業實驗資源的極大浪費,同時也會導緻創意數量上升但質量下降的問題。
第三,A/B測試的實驗周期一般較短,通常在一周到一個月之間。如此短的實驗區間可能無法表征實驗創意的長期效果。例如,A/B測試中發現修改“點擊了解詳情”按鈕的形狀或顔色可以帶來用戶點擊率的上升,但該實驗結果可能僅僅是因為用戶覺得這個新按鈕的形狀或顔色有新鮮感。當新鮮感褪去之後,點擊率會回落,甚至可能低于按鈕修改前的水平。
第四,A/B測試隻能幫助企業優化可衡量的顯性指标,無法及時捕捉隐性指标的變化,因而可能帶來“拆東牆補西牆”的情況。比如A/B測試發現增加廣告彈窗的數量可以增加用戶點擊率,從而促進廣告收入增長,但用戶在使用過程中的體驗感和滿意度可能随之降低,這種負面影響是A/B測試難以直接衡量的。
企業管理者有效利用A/B測試的策略
A/B測試以随機對照實驗和大數據驅動為底層邏輯,為企業在數字時代通過快速創新實現競争優勢帶來了新的機遇。企業管理者該如何把握這個機遇呢?
管理者要思考企業中關于創新的決策是否需要A/B測試的輔助。如果這些決策比較簡單和直接,遵循管理者和研發人員的經驗和直覺就可以,不需要浪費人力和物力進行A/B測試。如果企業中的創新決策需要A/B測試的支持,管理者要考慮如何構建A/B測試平台。
A/B測試平台的構建可以遵循戰略管理中的“Build-Borrow-Buy”經典框架。如果企業有充足的相關的資源和能力,可以考慮自建A/B測試平台(Build)。目前字節跳動、阿裡巴巴、百度和騰訊等頭部互聯網企業使用的均是自建的A/B測試平台。如果企業不能自建A/B測試平台,可以考慮使用合作夥伴的A/B測試平台(Borrow)。比如每日互動的B端客戶在使用其推送服務的同時,也在免費使用其提供的A/B測試工具對自身數字産品進行實驗。此外,企業也可以付費使用第三方的A/B測試平台(Buy)。目前國内使用較為廣泛的第三方A/B測試平台包括字節跳動旗下的火山引擎A/B測試平台以及神策數據的A/B測試平台。
構建A/B測試平台之後,管理者應給員工提供A/B測試的培訓,讓員工了解A/B測試的原理、流程和使用方法。更為重要的是,管理者要注意企業實驗文化的營造,讓A/B測試這種數據驅動決策的理念深入人心。
管理者還需要設置合理的管理機制來保證A/B測試的合理使用。一方面,需要設立具體的規則來給A/B測試排優先級,保證企業的實驗資源用在數字創新的“刀刃”上。另一方面,有必要設立監督機制,在A/B測試上線之前評估商業倫理風險,對于有損用戶權益的實驗要堅決叫停,以保障企業和用戶的長期利益。
鄒騰劍:浙江大學管理學院研究員
孫旭航:浙江大學管理學院碩士研究生
熊霏:浙江大學管理學院博士研究生
(第二作者孫旭航和第三作者熊霏在本文寫作中作出了同等貢獻,兩位作者按照姓氏首字母排序。)
責任編輯:朱晶
來源:《清華管理評論》2024年1-2月刊