9月18號。
這是個勿忘國恥的日子。
在這一天,百度宣布了重大的消息。
網(wǎng)易新聞:
“昨日,中文搜索引擎百度公司宣布,該公司兩位創(chuàng)始人之一的元老徐勇將于本月26日
徐勇在5月份的時候就提交了辭呈,徐勇和百度都未解釋辭職原因。百度內(nèi)部人士透露,暫時沒有人替代徐的職位,徐目前所負責(zé)的業(yè)務(wù)將分割到各相關(guān)部門。
徐勇曾是百度持股僅次于李彥宏的高管。1999年,徐勇和校友兼好友李彥宏創(chuàng)建了百度,并擔(dān)任副總裁職位;今年初,徐的職務(wù)由副總裁變?yōu)槭紫呗怨?,負?zé)公司戰(zhàn)略方向。徐勇表示辭職后將在自己的‘老本行’生物學(xué)領(lǐng)域發(fā)展?!?br/>
百度收購了搜夏引擎后,再次鞏固了自己中文搜索霸主的地位,原本在上一年度發(fā)展得如火如荼的慧聰網(wǎng),如今已經(jīng)被百度打得節(jié)節(jié)敗退。
在此之前,百度在中文搜索結(jié)果質(zhì)量的各項指標(biāo)上,百度的工程師表現(xiàn)得非常聰明,在某些點上也做得很細很出色,雖然對比 google 還是有優(yōu)勢,但是在與搜索相關(guān)的基礎(chǔ)技術(shù)上,百度還是全面落后。
百度的搜索質(zhì)量提高,有很大部分是依靠人工做大量細緻的策略調(diào)整硬拉上去的。而在百度收購了搜夏之后,其在與搜索相關(guān)的基礎(chǔ)技術(shù)上則有了很大的突破,其技術(shù)上的創(chuàng)新能力在今年一而再被媒體提及,而其商業(yè)模式仍舊是其詬病所在。
聯(lián)合創(chuàng)始人徐勇離職,李彥宏加強公司控制權(quán),這基本上是所有人看到消息的第一想法。年初徐勇任cso,明白人一眼就可以看出,這其實是個有點虛的職位。
而媒體的相關(guān)猜測是:徐勇的離職是百度為上市進行人事調(diào)整的一環(huán),是為百度上市融資“讓道”。
這種說法是有道理的,在6月份的時候,百度便已經(jīng)進行了第三次融資,這是上市前的最后一次融資,這一次是策略性融資,引進了googli以及dfj等八家風(fēng)險投資機構(gòu)共投資1500萬美元,股數(shù)225萬股,折合股份7.98%,而夏夢持股降為11%,預(yù)計公開發(fā)股后,夏夢的持股會變成9%。
縱觀在納斯達克上市的中國互聯(lián)網(wǎng)企業(yè),無一不在上市前上演高層人事調(diào)整的大地震,百度也不例外。
只是為何在百度的這場人事調(diào)整大地震中,徐勇為什么會出局呢?這其中的機密除了百度的高層估計其他人都不知道真實答案。
甭管徐勇為何出局,反正這消息對陳義哲而言,就是一個好消息。
知道消息的第一時間,陳義哲便給了徐勇打去了電話,“徐哥,徐總,現(xiàn)在沒事一身輕,應(yīng)該有時間過來鵬城這邊逛逛了吧?”
“我就怕一到你那邊,我一身又變重了!”徐勇笑道。
“徐哥,你這是怕我往你身上塞黃金嗎?”陳義哲打趣道。
“真的?那我這次可得順便帶個麻袋過去才行!”徐勇笑道。
“只要你來,你就是開著大貨車過來也行!”陳義哲說道。
9月底的時候,徐勇果然來鵬城了。
陳義哲帶著徐勇參觀了cdss項目目前的情況。
長達一年多的時間里,徐勇陸陸續(xù)續(xù)發(fā)來了大量的醫(yī)院臨床數(shù)據(jù),而cdss項目組多達30個人的技術(shù)人員就一直在做標(biāo)準(zhǔn)化數(shù)據(jù)的工作。
目前夏夢已經(jīng)在陳義哲的方案設(shè)計下,初步開發(fā)了支持闌尾炎,肝結(jié)核,胃結(jié)核等幾項特殊疾病的cdss。
“怪不得搜夏引擎的技術(shù)讓百度技術(shù)團隊驚為天人,看來夏夢互聯(lián)網(wǎng)內(nèi)部是人才濟濟啊。”徐勇感嘆道。
“呵呵,百度的技術(shù)也不差,你看google都被百度擋在國門外,現(xiàn)在google也只能曲線入華?!标惲x哲笑道。
徐勇?lián)u了搖頭,說道,“說句真心話,百度和google還是有一定的差距的。只是在國內(nèi)市場,百度占了天時地利,這其實是‘百度更懂中文’地一個集中體現(xiàn)。就簡單地說分詞,百度當(dāng)年做分詞,先從一個人工編輯號地字典開始,用這個字典跑一些網(wǎng)頁,觀察里面地bad case。”
“可能是分詞過細,或者是中文人名沒分出來,然后就嘗試根據(jù)中文語法規(guī)律加入規(guī)則或添加詞表解決這些 bad case,如此往復(fù),直到有滿意的結(jié)果。上線應(yīng)用,發(fā)現(xiàn)有新的 bad case 就再研究加規(guī)則,當(dāng)然也有自動流程發(fā)現(xiàn)和確認(rèn)如“人艱不拆”之類的新詞!”
“徐哥,想不到你這個醫(yī)藥出身的也懂得這其中的技術(shù)!”陳義哲笑道。
“都在這一行干了五年了,沒吃過豬肉,也見過豬跑。”徐勇自嘲道,緊接著他繼續(xù)道,“google和百度最大的區(qū)別,就是google更加強調(diào)技術(shù),它做分詞則是把問題看成一個概率問題:如果中文網(wǎng)頁中哪些字經(jīng)常一起出現(xiàn),那麼它們很有可能就是一個詞??茨男┰~后面會跟的地得,的地得后面有常跟哪些詞,語法結(jié)構(gòu)也就出來了?!?br/>
“解題思路就是把所有抓到的中文網(wǎng)頁往 mapreduce 裡一丟,參數(shù)算出來就好了。評估分詞質(zhì)量的方法也很簡單,就拿新模型放到網(wǎng)頁檢索的模型裡,做個實驗看質(zhì)量有沒提升就行。這套方法結(jié)果之好,基本把中文分詞做成了一個沒有多少懸念的簡單問題!”
“其實這也是google不懂中文的問題,因為它不需要中文語言專家的參與!同時這也就是 google 做實時翻譯的思路。”陳義哲接著道,“不過這種方法雖然簡單,看似沒有什么秘密可言,可是首先,google得先有這么多的網(wǎng)頁數(shù)據(jù),還得有大機群,有分布計算框架,還有可復(fù)用的模型……這點套在cdss其實也一樣,cdss也需要大數(shù)據(jù),計算的模型,看似簡單,但是其實復(fù)雜無比!”
“這是必然的,畢竟醫(yī)學(xué)上的知識太復(fù)雜了,做cdss項目往往需要考慮非常多的患者因素,如癥狀、體征、實驗室檢查數(shù)據(jù)、家族史、基因、流行病學(xué)資料、現(xiàn)有的醫(yī)學(xué)文獻等等。同時新發(fā)表的臨床研究數(shù)以萬計,質(zhì)量參差不齊,這些大量的數(shù)據(jù)導(dǎo)致了即使cdss開發(fā)出來,最終維護上仍會存在巨大困難。”
“目前較為成功的臨床決策支持系統(tǒng)往往局限于某個領(lǐng)域,覆蓋范圍有限。比如,1971年上線使用的leeds腹痛診斷系統(tǒng),其診斷的正確率高達90%以上,而醫(yī)生的診斷正確率在80%以下,但這套系統(tǒng)僅僅也只能用于診斷腹痛。由此可見,cdss項目的研發(fā)路遙遙而修遠兮!”徐勇不由嘆道。
“徐哥,目前大多數(shù)的臨床決策支持系統(tǒng),通常會包括三個組成部分:知識庫,推理機和人機交流接口。知識庫儲存著大量的編譯信息,通常采用if-then規(guī)則進行存儲和管理?!?br/>
“例如,關(guān)于藥物的相互作用,規(guī)則可以寫成“if服用了藥物x,and服用了藥物y,then顯示警告信息”。高級用戶也可以根據(jù)自身需要在另外的編輯界面中自定義知識庫里的規(guī)則,比如對新藥進行實時更新等。推理機則根據(jù)知識庫里的規(guī)則對患者的資料進行自動整合、分析。人機交流接口則是將分析結(jié)果反饋給用戶或者作為系統(tǒng)輸入。”
陳義哲看了徐勇一眼,繼續(xù)道,“這種采用知識庫的臨床決策支持系統(tǒng)確實會出現(xiàn)臨床數(shù)據(jù)復(fù)雜化,更新維護困難上的問題。不過我已經(jīng)準(zhǔn)備在著基礎(chǔ)上,采用人工智能的形式!”
“人工智能?”徐勇驚訝道,雖說人工智能提出了將近40年,各國也投入大量資金研究,可是目前并沒有大的突破,而且據(jù)他聽聞,google已經(jīng)在前兩年開始進入了這一領(lǐng)域。
陳義哲點了點頭,“通過機器學(xué)習(xí)從已有的經(jīng)驗中自動攫取規(guī)則,讓cdss系統(tǒng)不僅僅成為數(shù)據(jù)的輸入者,也要讓它成為數(shù)據(jù)的采集者。”
“夏夢這邊的ai是基于那種構(gòu)建方法?”徐勇好奇地問道。
“主要是基于人工神經(jīng)網(wǎng)絡(luò)和遺傳算法的結(jié)合!”陳義哲答道,其實確切地說,若是最終確定把cdss推出市面,那其ai終端必然是大白,唯有如此,才能保證數(shù)據(jù)及時地被大白吸收,而診斷也不會輕易的有白癡問題的出現(xiàn)!想和更多志同道合的人一起聊《重生2002之納米人生》,“ ”看小說,聊人生,尋知己~