服務(wù)熱線
業(yè)務(wù)咨詢:167-1083-8763(鄧先生,微信同)
加急電話:167-1083-8763
在線客服:周一至周日8:00-22:00
編者按:
在大數(shù)據(jù)被熱炒的今天,你一定從哪里聽說(shuō)過(guò),谷歌用搜索和大數(shù)據(jù)技術(shù)來(lái)預(yù)測(cè)流感發(fā)生。大數(shù)據(jù)粉絲們對(duì)此捧紅得不得了,這就是著名的“谷歌流感趨勢(shì)”(Google Flu Trends)項(xiàng)目。粉絲們認(rèn)為,利用大數(shù)據(jù)預(yù)測(cè)疾病發(fā)生,是公眾健康的福祉。
不過(guò),身在美國(guó)的衛(wèi)生經(jīng)濟(jì)學(xué)家陳茁向健康界介紹,這一始于2008年的項(xiàng)目如今在美國(guó)遭遇到了很大質(zhì)疑。
他介紹,盡管“谷歌流感趨勢(shì)”在2009年的成功表現(xiàn)讓人大吃一驚,但接下來(lái),項(xiàng)目高估了類流感的發(fā)病率,有時(shí)甚至比美國(guó)疾控中心的數(shù)據(jù)高出一倍以上。
不過(guò),熟悉統(tǒng)計(jì)學(xué)的陳茁結(jié)合他過(guò)去的一些研究,對(duì)“谷歌流感趨勢(shì)”與美國(guó)疾控中心數(shù)據(jù)偏差產(chǎn)生的原因進(jìn)行了分析,并對(duì)谷歌項(xiàng)目提出了改進(jìn)建議。
他的觀點(diǎn)很明確,類似項(xiàng)目應(yīng)該在數(shù)據(jù)準(zhǔn)確方面有所改進(jìn),不切實(shí)際的過(guò)高期望有可能會(huì)“捧殺”大數(shù)據(jù)。但他相信,如果方法得當(dāng),大數(shù)據(jù)對(duì)疾病預(yù)測(cè)依舊有巨大的潛能,還可以在疾病監(jiān)測(cè)防控之外發(fā)揮難以比擬的作用。
中國(guó)衛(wèi)生領(lǐng)域?qū)Υ髷?shù)據(jù)的支持者最近大概是喜憂參半。一方面,中國(guó)國(guó)家疾病預(yù)防控制中心與百度合作,進(jìn)行疾病預(yù)測(cè)防控;另一方面,美國(guó)“谷歌流感趨勢(shì)”項(xiàng)目的準(zhǔn)確性遭受到質(zhì)疑。
“谷歌流感趨勢(shì)”是谷歌公司2008年上馬的一個(gè)項(xiàng)目。它的想法是,根據(jù)美國(guó)各州和主要城市對(duì)流感短語(yǔ)的搜索,來(lái)預(yù)測(cè)流感的暴發(fā)。
項(xiàng)目背后的原理也很簡(jiǎn)單:如果某地流感開始流行,那么相關(guān)疾病的谷歌搜索就會(huì)增多。谷歌研究團(tuán)隊(duì)2009年在《自然》上發(fā)表的文章引起很大反響。他們準(zhǔn)確預(yù)測(cè)了2009年流感流行,讓人大吃一驚。
其實(shí),對(duì)于利用搜索引擎及相關(guān)數(shù)據(jù)預(yù)測(cè)衛(wèi)生領(lǐng)域指標(biāo),業(yè)內(nèi)早有相關(guān)研究。哈佛大學(xué)陳怡玲和合作者利用Yahoo的搜索數(shù)據(jù),曾預(yù)測(cè)過(guò)肺炎和流感相關(guān)死亡數(shù),相關(guān)研究于2008年發(fā)表在《Clinical Infectious Disease》上。
2009年以后,“谷歌流感趨勢(shì)”項(xiàng)目的表現(xiàn)一直不盡如人意。2011年~2013年間,項(xiàng)目多數(shù)高估了類流感發(fā)病率,有時(shí)候甚至比美國(guó)疾控中心的數(shù)據(jù)超出一倍以上。原因到底是什么?
我個(gè)人認(rèn)為,其中一個(gè)原因就是大家被“谷歌流感趨勢(shì)”2009年的成功迷惑了,寄予了它過(guò)高的期望值。
現(xiàn)實(shí)要遠(yuǎn)比原理復(fù)雜。谷歌搜索的結(jié)果和使用者人群“自我估計(jì)”的流感發(fā)病率相關(guān)?!白晕夜烙?jì)”實(shí)際上很有問(wèn)題。這是因?yàn)?,普通感冒在不同個(gè)體身上的嚴(yán)重程度上會(huì)有差別,有些患者因?yàn)閾?dān)心,便搜索了相關(guān)信息。這些搜索構(gòu)成了類流感“自我估計(jì)”中的“噪聲”。所以,“谷歌流感趨勢(shì)”模型中的“噪聲”需要謹(jǐn)慎對(duì)待。
另外,美國(guó)疾控中心的數(shù)據(jù)來(lái)自各地實(shí)驗(yàn)室或醫(yī)療服務(wù)提供商,反映的是就診發(fā)病率。由于不是每個(gè)類流感患者都會(huì)去看病,美國(guó)疾控中心的數(shù)據(jù)跟真實(shí)發(fā)病率也會(huì)有差別。
某種意義上說(shuō),谷歌流感趨勢(shì)的預(yù)測(cè)和美國(guó)疾控中心數(shù)據(jù)是兩個(gè)不同的指標(biāo),兩者不一樣并不奇怪。相對(duì)于就診發(fā)病率,我認(rèn)為“谷歌流感趨勢(shì)”結(jié)合傳播動(dòng)力學(xué)來(lái)預(yù)測(cè)流感暴發(fā)概率,可能會(huì)更好一些。
當(dāng)然,如果只用“谷歌流感趨勢(shì)”,還想準(zhǔn)確地預(yù)測(cè)流感發(fā)病率,無(wú)疑是歧路亡羊。
“谷歌流感趨勢(shì)”項(xiàng)目失誤的另外一個(gè)原因是在數(shù)據(jù)分析方面存在欠缺。哈佛大學(xué)GaryKing和搭檔的研究就指出了谷歌項(xiàng)目在分析上的不足。
首先,這個(gè)項(xiàng)目沒有盡可能利用傳統(tǒng)的統(tǒng)計(jì)分析手段來(lái)剔除系統(tǒng)誤差,比如殘差的自相關(guān)性和季節(jié)性。
其次,“谷歌流感趨勢(shì)”忽略了其他數(shù)據(jù)的作用。如果結(jié)合美國(guó)疾控中心的數(shù)據(jù),谷歌的預(yù)測(cè)其實(shí)有可能被大大改善。我曾在明尼蘇達(dá)大學(xué)楊宇宏教授的指導(dǎo)下做過(guò)“預(yù)測(cè)合并”的研究,“預(yù)測(cè)合并”可以改善預(yù)測(cè)精度,這或許是一個(gè)可行的改進(jìn)方向。
另外,有推測(cè)認(rèn)為,隨著項(xiàng)目開始廣為人知,很多人開始跟進(jìn)研究。大家都搜索流感相關(guān)短語(yǔ),也增加了不少“噪聲”。這個(gè)問(wèn)題相對(duì)來(lái)說(shuō)比較容易解決,因?yàn)楣雀杩梢源_定搜索是否源于研究機(jī)構(gòu)子網(wǎng)中,然后進(jìn)行排除。
而且,Gary King等也委婉地對(duì)谷歌研究團(tuán)隊(duì)提出了批評(píng),認(rèn)為其數(shù)據(jù)分析不夠透明,沒有將完全的“搜索短語(yǔ)集”公布出來(lái)。
盡管谷歌的項(xiàng)目遭遇質(zhì)疑,但我個(gè)人認(rèn)為這種質(zhì)疑不足以否定大數(shù)據(jù)對(duì)國(guó)民健康的潛在貢獻(xiàn)。我也相信,大數(shù)據(jù)還可以在疾病監(jiān)測(cè)防控之外發(fā)揮難以比擬的作用。
根據(jù)美國(guó)2010平價(jià)醫(yī)療法案(ACA)建立的循患果效研究所(Patient-centered Outcome Research Institute)曾經(jīng)資助了一個(gè)大數(shù)據(jù)項(xiàng)目。該項(xiàng)目旨在利用11個(gè)不同醫(yī)療服務(wù)網(wǎng)絡(luò)的數(shù)據(jù),來(lái)找出醫(yī)學(xué)干預(yù)有可能產(chǎn)生的不同效果,并為找到合適的隨機(jī)臨床試驗(yàn)受試者提供線索。
此外,隨著信息技術(shù)的發(fā)展和相關(guān)軟硬件性價(jià)比的提高,相當(dāng)多的數(shù)據(jù)服務(wù)商和地區(qū)醫(yī)療服務(wù)網(wǎng)絡(luò)已開始利用大數(shù)據(jù),尋找最有效和最具成本效益的醫(yī)學(xué)、預(yù)防和干預(yù)手段。老牌MarketScan等數(shù)據(jù)服務(wù)機(jī)構(gòu)受到新興機(jī)構(gòu)的挑戰(zhàn),如醫(yī)療成本研究所等。
我相信,中國(guó)國(guó)家疾病預(yù)防控制中心與百度的合作前景可期。百度的數(shù)據(jù)結(jié)合中國(guó)國(guó)家疾病預(yù)防控制中心觀測(cè)點(diǎn)的數(shù)據(jù),可提供更多更全面的原始信息。如果配合嚴(yán)謹(jǐn)?shù)姆治?,這有可能開辟疾病監(jiān)測(cè)防控的新天地。
對(duì)于上述合作,期許之外,我也有一些建議:
一個(gè)是應(yīng)該更加重視分析方法,不能因?yàn)橛辛舜髷?shù)據(jù)就放棄對(duì)分析方法的重視和探索。沒有合適的方法,大數(shù)據(jù)也可能導(dǎo)致錯(cuò)誤的結(jié)論。比如,百度的使用人群會(huì)有不同的特征,利用百度數(shù)據(jù)進(jìn)行推測(cè)疾病,就需要考慮這些特定人群與一般人群之間的差異。
另外,也需要考慮個(gè)人隱私和流行病監(jiān)測(cè)之間的平衡。
最后,對(duì)標(biāo)準(zhǔn)化的重視會(huì)減少大數(shù)據(jù)應(yīng)用過(guò)程中的錯(cuò)誤。這一點(diǎn)對(duì)醫(yī)院和各地疾控機(jī)構(gòu)信息化建設(shè)尤為重要。
?。ū疚淖髡邽橹ゼ痈绱髮W(xué)衛(wèi)生促進(jìn)研究中心博士后學(xué)者,資深衛(wèi)生經(jīng)濟(jì)學(xué)者,主要研究領(lǐng)域?yàn)樾l(wèi)生經(jīng)濟(jì)學(xué)、健康不均等的分析,及政策和項(xiàng)目評(píng)估?!吨袊?guó)衛(wèi)生評(píng)論》創(chuàng)刊主任編輯,現(xiàn)任《家庭和經(jīng)濟(jì)問(wèn)題雜志》編輯委員會(huì)委員。本文僅代表作者個(gè)人觀點(diǎn)。)
站點(diǎn)聲明:
本網(wǎng)站所提供的信息僅供參考之用,并不代表本網(wǎng)贊同其觀點(diǎn),也不代表本網(wǎng)對(duì)其真實(shí)性負(fù)責(zé)。圖片版權(quán)歸原作者所有,如有侵權(quán)請(qǐng)聯(lián)系我們,我們立刻刪除。如有關(guān)于作品內(nèi)容、版權(quán)或其它問(wèn)題請(qǐng)于作品發(fā)表后的30日內(nèi)與本站聯(lián)系,本網(wǎng)將迅速給您回應(yīng)并做相關(guān)處理。 北京醫(yī)大道恒醫(yī)療集團(tuán)有限公司專注于醫(yī)院中高管理人員培訓(xùn)和職業(yè)類證書咨詢服務(wù),為公立和民營(yíng)醫(yī)院提供運(yùn)營(yíng)管理、質(zhì)量管理、績(jī)效財(cái)務(wù)、創(chuàng)新服務(wù)等咨詢服務(wù)及包括GCP、老年人能力評(píng)估師、醫(yī)療護(hù)理員、醫(yī)院人工智能AI提示詞工程師等個(gè)人職業(yè)證書培訓(xùn)。道恒擁有資深行業(yè)專家數(shù)名,根植于行業(yè)數(shù)年,具備精準(zhǔn)發(fā)展醫(yī)院現(xiàn)有問(wèn)題和解決問(wèn)題的能力。道恒致力于為醫(yī)院打造高素質(zhì)管理團(tuán)隊(duì),培養(yǎng)醫(yī)院核心競(jìng)爭(zhēng)力。