哪些因素導致科學界中國獲獎比例較少?科學領域是否也存在不平等及偏見?今天小編和大家分享的21年9月發表在Cell Systems(IF:8.6400)雜志上的文章或許會給出一些答案。這篇文章分析了科學論文作者及科研獲獎者兩個群體,通過研究他們的姓名和地域差異來探索科學多樣性,文章作者希望以此來減少科學界的偏見。這個研究重點關注了包括生物信息學家在內的計算生物學家,使用的也多是生物信息方法,盡管文章用到的方法并不復雜但是研究的問題卻十分值得我們思考。
Analysis of scientific society honors reveals disparities
分析科學協會榮譽揭示差異
一. 研究背景
目前,盡管參與科學研究的女性人數在增加,但就論文發表量、引用量、獲得資助、合作和認可程度等方面來看男性和女性科研人員之間仍然存在不平等的現象。同時在科學榮譽方面也存在明顯的國家地域等差異。因此文章比較了來自國際計算生物學學會412名獲獎者的性別、姓名和所屬國家,希望能夠通過分析不同科學領域,進而采取有針對性的干預措施來改善領域內的偏見。
二. 研究方法
1. 獲獎者收集:研究分析了ISCB相關會議(ISMB)和在許多大洲舉行的會議(RECOMB),在國際科學委員會的網頁上收集了2009 - 2019年的獲獎者全名及獲得該榮譽的年份。
2. 名字處理:研究從網站上提供的全名提取獲獎者姓名,選擇第一個非首字母的名作為名字,最后一個名作為姓氏。同時創建了一些函數來簡化pubmedpy Python包中的名稱來進行標準化的名字和姓氏處理。
3. 最后作者提取:研究假設論文作者列表中,最后一位作者最有可能被邀請做主題演講或被授予研究員榮譽。因此,研究使用PubMed檢索最后作者姓名,并使用E-Utilities API提取作者的姓名和順序,從pubMed編譯了176773篇期刊文章目錄,它們是從1993年到2019年英文書寫并標記為MeSH也就是計算生物學的文章。最終作者分析了1998年至2019年的176110篇文章,同時從PubMed DocSum XML記錄的PmcRefCount中提取了文章被引用次數。
4. 國家關系:由于出版物通常會提供作者的聯系列表將作者與研究機構聯系起來,并提供相應的物理地址。因此研究利用pubmedpy Python包提取了PubMed和PMC XML記錄中的從屬關系,并利用geotext 和geopy.geocoders.NominatimPython工具從文本中提取國家。
5. 性別評估:作者使用https://genderize.io API預測獲獎者和論文作者的性別,該API從網上收集了超過1億個姓名性別對,是三種廣泛使用的性別推斷服務之一,其能夠預測名字是男性或女性的概率。
6. 名字起源估計:研究開發了一個模型來預測名字的地理起源。目前Python包ethnicolr可以預測名字的地理起源,但有一定局限性,為了解決這些局限性,作者建立了一個類似的分類器--LSTM神經網絡,其能夠從姓名字母序列模式中推斷起源區域。作者在80%的Wiki2019數據集上訓練預測模型,并使用剩余的20%評估其性能。這個模型被稱之為Wiki2019-LSTM。
7. 關系分析:研究通過將在每個國家工作的作者比例與獲獎者總人數相乘來計算預期的獲獎者人數,然后進行富集分析來檢驗ISCB獲獎者和特定領域作者之間的國家比例差異。作者用泊松模型估計了log2富集的95%置信區間。
三. 研究的主要內容及結果
1. 指標的選擇及背景的定義
在文章的第一部分介紹了研究中做的選擇以及這些選擇的原因。首先研究選擇在獲獎者和論文作者水平上進行分析,這是由于如果一個科學家獲得三次獎項,這三個榮譽代表了不同的選擇過程,應該單獨考慮。研究還估計了每一篇論文和獲獎者姓氏的性別和來源,也考慮了是否應該根據最終手稿的某些屬性來衡量,如引用的數量等。最終研究選擇使用計算生物學術語(MeSH)對176110篇PubMed文章進行分析。根據慣例,通信作者通常是最后一個,因此研究選擇最后一個作者作為最合適的作者。圖1展示了所有選擇的結果,同時研究通過多次改變參數迭代執行來檢驗它們對結果的影響程度。

2. 研究對象的性別比例
在這一部分作者使用https://genderize.io API來預測獲獎者和發表論文作者的性別,該API從網絡上收集了超過1億對姓名-性別對。最終研究觀察到女性作者的在比例逐漸增加,同時也可以觀察到近年來,ISCB研究員和主題演講者的性別比例相似(圖2,右)。

3. 凱爾特及英文名字的獲獎者比例過高而東亞名字的獲獎者比例偏低
在這一部分,研究使用在Wiki(2019)數據集上訓練的LSTM神經網絡來推斷研究對象名字的地理區域,這個模型被稱為Wiki2019-LSTM。結果發現使用凱爾特語或英語名字的論文作者比例逐漸下降(圖3A,左),而大多數主講人和研究員是凱爾特或英語名字(圖3A,右)。而當研究直接將榮譽構成與PubMed進行比較時,可以觀察到兩組之間的差異(圖3B)。此外,也可以觀察到與其他名字相比,東亞名字獲獎的幾率要低得多。

4. 美國相關的獲獎者名字過多
這一部分研究分析了論文作者與ISCB獲獎者的國家關系,計算了每個國家的log2富集值(LOE)及其95%置信區間。如果LOE值為正,則表明與作者相比,該國家的獲獎者比例更高。LOE值為1,則表示觀測到的榮譽數量是預期的兩倍。結果研究發現與美國和以色列等機構和公司相關的獲獎者比例過高,而與中國、法國、意大利、印度、韓國和巴西等關聯的獲獎者比例過低(圖4)。

5. 研究對獲獎多樣性的改善
在最后一部分,介紹了這個研究在進行后對獲獎者多樣性的改善情況。研究于2020年1月30日發布了1.0版稿件,如今看來獲獎者的多樣性有所增加。例如,2020年的12位ISCB研究員和5位ISMB主題演講嘉賓中,預測獲獎者擁有東亞名字的平均概率為33%,高于以往任何一年。同時,獲獎者中還包括首位來自中國的ISCB研究員。此外,與往年相比,2020年計算生物學領域的科學家多樣性更高。這些新的研究結果表明了值得獲得諾貝爾獎的人中包括那些未被充分承認的群體,且研究諾貝爾獎獲得者與這個領域的分布是否一致可能會改變并解決不平等問題。
到這里這篇文章的主要內容就介紹完了,可以看出目前國際社會在科研界仍然存在性別和有色人種及地域等不平衡的現象。所以可能需要做更多的工作來提高科研領域中的多樣性和包容性。這個問題沒有單一的解決方案,需要科研生態系統的各個部分共同努力,推動持久的變化。只有通過有意識地消除性別和國籍等方面的障礙才能釋放學術和應用研究的潛力。這篇研究使用數據洞見科研領域,希望能夠在全世界提升科研領域的多樣性來推動科學發展。
參考文獻
1. Analysis of scientific society honors reveals disparities;
2. Nameethnicity classification from open sources;