哪些因素導(dǎo)致科學(xué)界中國獲獎比例較少?科學(xué)領(lǐng)域是否也存在不平等及偏見?今天小編和大家分享的21年9月發(fā)表在Cell Systems(IF:8.6400)雜志上的文章或許會給出一些答案。這篇文章分析了科學(xué)論文作者及科研獲獎?wù)邇蓚€群體,通過研究他們的姓名和地域差異來探索科學(xué)多樣性,文章作者希望以此來減少科學(xué)界的偏見。這個研究重點關(guān)注了包括生物信息學(xué)家在內(nèi)的計算生物學(xué)家,使用的也多是生物信息方法,盡管文章用到的方法并不復(fù)雜但是研究的問題卻十分值得我們思考。
Analysis of scientific society honors reveals disparities
分析科學(xué)協(xié)會榮譽(yù)揭示差異
一. 研究背景
目前,盡管參與科學(xué)研究的女性人數(shù)在增加,但就論文發(fā)表量、引用量、獲得資助、合作和認(rèn)可程度等方面來看男性和女性科研人員之間仍然存在不平等的現(xiàn)象。同時在科學(xué)榮譽(yù)方面也存在明顯的國家地域等差異。因此文章比較了來自國際計算生物學(xué)學(xué)會412名獲獎?wù)叩男詣e、姓名和所屬國家,希望能夠通過分析不同科學(xué)領(lǐng)域,進(jìn)而采取有針對性的干預(yù)措施來改善領(lǐng)域內(nèi)的偏見。
二. 研究方法
1. 獲獎?wù)呤占?/strong>研究分析了ISCB相關(guān)會議(ISMB)和在許多大洲舉行的會議(RECOMB),在國際科學(xué)委員會的網(wǎng)頁上收集了2009 - 2019年的獲獎?wù)呷矮@得該榮譽(yù)的年份。
2. 名字處理:研究從網(wǎng)站上提供的全名提取獲獎?wù)咝彰x擇第一個非首字母的名作為名字,最后一個名作為姓氏。同時創(chuàng)建了一些函數(shù)來簡化pubmedpy Python包中的名稱來進(jìn)行標(biāo)準(zhǔn)化的名字和姓氏處理。
3. 最后作者提取:研究假設(shè)論文作者列表中,最后一位作者最有可能被邀請做主題演講或被授予研究員榮譽(yù)。因此,研究使用PubMed檢索最后作者姓名,并使用E-Utilities API提取作者的姓名和順序,從pubMed編譯了176773篇期刊文章目錄,它們是從1993年到2019年英文書寫并標(biāo)記為MeSH也就是計算生物學(xué)的文章。最終作者分析了1998年至2019年的176110篇文章,同時從PubMed DocSum XML記錄的PmcRefCount中提取了文章被引用次數(shù)。
4. 國家關(guān)系:由于出版物通常會提供作者的聯(lián)系列表將作者與研究機(jī)構(gòu)聯(lián)系起來,并提供相應(yīng)的物理地址。因此研究利用pubmedpy Python包提取了PubMed和PMC XML記錄中的從屬關(guān)系,并利用geotext 和geopy.geocoders.NominatimPython工具從文本中提取國家。
5. 性別評估:作者使用https://genderize.io API預(yù)測獲獎?wù)吆驼撐淖髡叩男詣e,該API從網(wǎng)上收集了超過1億個姓名性別對,是三種廣泛使用的性別推斷服務(wù)之一,其能夠預(yù)測名字是男性或女性的概率。
6. 名字起源估計:研究開發(fā)了一個模型來預(yù)測名字的地理起源。目前Python包ethnicolr可以預(yù)測名字的地理起源,但有一定局限性,為了解決這些局限性,作者建立了一個類似的分類器--LSTM神經(jīng)網(wǎng)絡(luò),其能夠從姓名字母序列模式中推斷起源區(qū)域。作者在80%的Wiki2019數(shù)據(jù)集上訓(xùn)練預(yù)測模型,并使用剩余的20%評估其性能。這個模型被稱之為Wiki2019-LSTM。
7. 關(guān)系分析:研究通過將在每個國家工作的作者比例與獲獎?wù)呖側(cè)藬?shù)相乘來計算預(yù)期的獲獎?wù)呷藬?shù),然后進(jìn)行富集分析來檢驗ISCB獲獎?wù)吆吞囟I(lǐng)域作者之間的國家比例差異。作者用泊松模型估計了log2富集的95%置信區(qū)間。
三. 研究的主要內(nèi)容及結(jié)果
1. 指標(biāo)的選擇及背景的定義
在文章的第一部分介紹了研究中做的選擇以及這些選擇的原因。首先研究選擇在獲獎?wù)吆驼撐淖髡咚缴线M(jìn)行分析,這是由于如果一個科學(xué)家獲得三次獎項,這三個榮譽(yù)代表了不同的選擇過程,應(yīng)該單獨考慮。研究還估計了每一篇論文和獲獎?wù)咝帐系男詣e和來源,也考慮了是否應(yīng)該根據(jù)最終手稿的某些屬性來衡量,如引用的數(shù)量等。最終研究選擇使用計算生物學(xué)術(shù)語(MeSH)對176110篇PubMed文章進(jìn)行分析。根據(jù)慣例,通信作者通常是最后一個,因此研究選擇最后一個作者作為最合適的作者。圖1展示了所有選擇的結(jié)果,同時研究通過多次改變參數(shù)迭代執(zhí)行來檢驗它們對結(jié)果的影響程度。

2. 研究對象的性別比例
在這一部分作者使用https://genderize.io API來預(yù)測獲獎?wù)吆桶l(fā)表論文作者的性別,該API從網(wǎng)絡(luò)上收集了超過1億對姓名-性別對。最終研究觀察到女性作者的在比例逐漸增加,同時也可以觀察到近年來,ISCB研究員和主題演講者的性別比例相似(圖2,右)。

3. 凱爾特及英文名字的獲獎?wù)弑壤^高而東亞名字的獲獎?wù)弑壤?/strong>
在這一部分,研究使用在Wiki(2019)數(shù)據(jù)集上訓(xùn)練的LSTM神經(jīng)網(wǎng)絡(luò)來推斷研究對象名字的地理區(qū)域,這個模型被稱為Wiki2019-LSTM。結(jié)果發(fā)現(xiàn)使用凱爾特語或英語名字的論文作者比例逐漸下降(圖3A,左),而大多數(shù)主講人和研究員是凱爾特或英語名字(圖3A,右)。而當(dāng)研究直接將榮譽(yù)構(gòu)成與PubMed進(jìn)行比較時,可以觀察到兩組之間的差異(圖3B)。此外,也可以觀察到與其他名字相比,東亞名字獲獎的幾率要低得多。

4. 美國相關(guān)的獲獎?wù)呙诌^多
這一部分研究分析了論文作者與ISCB獲獎?wù)叩膰谊P(guān)系,計算了每個國家的log2富集值(LOE)及其95%置信區(qū)間。如果LOE值為正,則表明與作者相比,該國家的獲獎?wù)弑壤摺OE值為1,則表示觀測到的榮譽(yù)數(shù)量是預(yù)期的兩倍。結(jié)果研究發(fā)現(xiàn)與美國和以色列等機(jī)構(gòu)和公司相關(guān)的獲獎?wù)弑壤^高,而與中國、法國、意大利、印度、韓國和巴西等關(guān)聯(lián)的獲獎?wù)弑壤^低(圖4)。

5. 研究對獲獎多樣性的改善
在最后一部分,介紹了這個研究在進(jìn)行后對獲獎?wù)叨鄻有缘母纳魄闆r。研究于2020年1月30日發(fā)布了1.0版稿件,如今看來獲獎?wù)叩亩鄻有杂兴黾印@纾?020年的12位ISCB研究員和5位ISMB主題演講嘉賓中,預(yù)測獲獎?wù)邠碛袞|亞名字的平均概率為33%,高于以往任何一年。同時,獲獎?wù)咧羞€包括首位來自中國的ISCB研究員。此外,與往年相比,2020年計算生物學(xué)領(lǐng)域的科學(xué)家多樣性更高。這些新的研究結(jié)果表明了值得獲得諾貝爾獎的人中包括那些未被充分承認(rèn)的群體,且研究諾貝爾獎獲得者與這個領(lǐng)域的分布是否一致可能會改變并解決不平等問題。
到這里這篇文章的主要內(nèi)容就介紹完了,可以看出目前國際社會在科研界仍然存在性別和有色人種及地域等不平衡的現(xiàn)象。所以可能需要做更多的工作來提高科研領(lǐng)域中的多樣性和包容性。這個問題沒有單一的解決方案,需要科研生態(tài)系統(tǒng)的各個部分共同努力,推動持久的變化。只有通過有意識地消除性別和國籍等方面的障礙才能釋放學(xué)術(shù)和應(yīng)用研究的潛力。這篇研究使用數(shù)據(jù)洞見科研領(lǐng)域,希望能夠在全世界提升科研領(lǐng)域的多樣性來推動科學(xué)發(fā)展。
參考文獻(xiàn)
1. Analysis of scientific society honors reveals disparities;
2. Nameethnicity classification from open sources;