表面增強拉曼光譜是一項指紋式的超靈敏檢測技術🔘✩,在生物醫學🛫、環境保護、食品安全等各個領域都展現出極高的應用價值。為了達到更高的檢測靈敏度以及更加具有魯棒性的檢測能力🏅,該技術可從增強基底的設計🧗♀️、拉曼信號分子的構建🤷🏼♀️、合成路線的優化、儀器設備的改進以及數據處理和分析方法的建立等方面不斷更新與發展。而人工智能(Artificial intelligence)得益於其在高層次表征學習和復雜特征識別中展現出的強大能力,可以模仿人類行為甚至超越人類智能🧑🏻💼。因此,面對如今數據規模的爆炸式增長以及各種內部因素的交織復雜,人工智能也逐步在表面增強拉曼光譜的全流程中被廣泛應用(圖1),加速了系統性的優化,加深了人們對於背後物理機製和光譜數據的理解🧙🏼♀️,遠超人腦計算與傳統計算方法的能力🦞。在本文中🚚,作者回顧了近期人工智能在表面增強拉曼光譜中的進展,對未來挑戰、解決方案與發展前景提出了新的見解。
圖 1
首先,針對增強基底與報告分子,作者基於正向/反向設計(forward/inverse design)的人工智能及相應表示方式分別展開了討論(圖2)🌿🚦。正向設計路線🦩,即根據已知的基底結構對其遠場消光Ⓜ️、近場增強、電荷遷移率等特性進行預測,或基於已知的分子結構對散射截面💞、最大吸收/發射波長🧒🏽、量子產率等性質進行推斷;反向設計路線則根據目標特性🦶🏽,構建可能的基底/分子結構。其中對於基底和分子結構的表示方式很大程度上決定了算法所能夠計算的範圍,因此也需要根據具體的需求來選擇合適的表示方式。常用的基底表示方式如具體結構參數(長、寬、直徑等)以及二維/三維圖片;對於分子結構的描述則相對更為復雜🫘,需要考慮唯一性、分子內原子間作用等因素。目前💇🏽,神經網絡通常被用來同時實現正向/反向設計👩👩👦;而反向設計存在非唯一解🧓,使用串聯神經網絡能夠達到穩定的收斂效果。此外,神經網絡的可解釋性對於探索基底/分子背後的物化機製起著十分重要的作用😖🫦,采用SHAP(SHapley Additive exPlanations)等方法可以幫助更好地挖掘決定特定性質的關鍵結構等信息。
圖2
表面增強拉曼光譜技術對於基底及分子結構十分靈敏🥮,其微小的變化會引發巨大的譜峰特征與強度的差異🚵🏻♀️,因此製備/合成路線的優化對於提升表面增強拉曼技術十分重要。通過文本挖掘(text mining)可以一次性獲得大量的實驗數據、實驗現象和結果🏧,從而探索實驗條件與最終產物性質之間的關系👨❤️💋👨。但由於文獻中的描述通常會存在一定的偏頗,結合微流控實驗平臺與優化算法(包括遺傳算法和貝葉斯優化)⚇,可以精確控製各種實驗條件🗜,融合在線自動化表征分析,及時獲取分子的特性以實行進一步優化👨🏽🍳,從而獲得能夠達到目標特性的最優合成路線🧑🏿🎓,目前已在金/銀等納米材料的合成路線開發中被廣泛嘗試(圖3)。
圖3
在表面增強拉曼技術相關的硬件系統(如傳輸矩陣🪩、入射光源形狀、存儲容量)🪰、光譜預處理(去除宇宙射線👨🏻💻、基線校準👶🏼、降噪)等領域目前也有大量算法被開發(圖4)🔛。其中,采用循環一致生成對抗網絡(cycle-consistent generative adversarial network)🤽、降噪自編碼器(denoising autoencoder)、卷積神經網絡(CNN)與U-net的結合模型/級聯模型可以實現多合一的處理能力,一步完成上述三項光譜預處理需求。
圖 4
作者將表面增強拉曼光譜在各個領域的應用分為定性、定量♣︎、表型研究與成像四種類型(圖5)。采用多元曲線分析(multivariate curve resolution)與人工神經網絡等的方式可以將目標組分從混合光譜中區分開來👨🏭,從而判斷目標分子在體系中的有無👩🏽🔧,即定性📅。進一步地👃🏽,解析某一組分在混合光譜中的貢獻值,通過分類/回歸計算不同組分之間的濃度比例和某一分子的濃度,結合一些矯正因子(如特征放大器characteristic amplifier)👨🏻🔧、遷移學習(transfer learning)有望減小混合體系的復雜變化對定量準確性帶來的影響(包括多種分子在增強基底表面的競爭吸附、基質背景),從而擴大應用範圍🏭。在生物醫學領域,表型檢測可以實現高通量的分子測試👨🏿✈️,得益於表面增強拉曼光譜技術(尤其是非靶檢測策略)的便捷性、高靈敏度以及高靈活度,其在各種疾病模型中被廣泛研究😯,目前已有大量文獻報道在癌症、退行性疾病等中實現了基於表型的高精準診斷與潛在標誌物分子的挖掘👮🏼。在成像應用中,采用人工智能相比傳統基於單個特征峰的方法可以提高成像通量和靈敏度🍆:對於標記成像,根據已有數據庫進行多組分拆解,實現更多指標的成像以及微量標記的識別⏺;對於非標記成像,可以自動提取主要成分🚣🏼,在成像的同時🤾,為具體生物組成提供參考😽。
圖 5
針對如今的人工智能在表面增強拉曼光譜中的使用,作者認為在樣品準備🕺🏻、數據獲取與使用等方面仍然存在未解決的問題以及尚可利用的發展機遇,包括👨🏻🍼:
(1) 重復性與質控👮🏻♀️:由於人為操作對於納米尺度的不可控😞,重復性問題是表面增強拉曼光譜領域長期以來的挑戰,作者呼籲實驗過程與實驗結果(尤其包含失敗的結果)的全公開透明以及雙盲實驗的設計🏀,有利於更好理解各種變量,從而提升重復性🈴。此外👃🏽,在實驗中增加質控以及采用統一的實驗與數據分析方法🐹,將有利於進一步減小時序實驗以及不同實驗室之間的系統誤差。
(2) 數據對齊👱♀️:可以借鑒圖像領域的數據對齊方式並遷移到拉曼光譜中🪣,采用深度配準網絡取代傳統配準方法中的特征提取與特征匹配👩🏼🦳,以及在監督與非監督的模式下進行位姿優化🐕。
(3) 數據質量:數據標簽(ground truth或label)很大程度上決定了模型計算結果是否可信📰。通常情況下由於儀器誤差🧓🏽🩲、樣本采樣差異等因素會導致標簽錯誤,而人工二次驗證費時費力🗡,在一些場景下幾近不可能。因此可以通過在訓練過程中引入不確定因子,或采用半監督的策略來減少影響😣。
(4) “大拉曼模型”🧑🏼🦲:近年來,ChatGPT被廣泛推廣和使用,搭建基於開源大語言模型的大拉曼模型或開發拉曼光譜基礎模型🏋🏼♂️,集合眾多拉曼數據訓練大拉曼模型,有利於準確地理解拉曼數據背後的深層信息,提升拉曼技術對於生物、醫學等基礎研究的應用能力。
(5) 倫理問題:對於算法決策的解釋是人工智能倫理中的一個重要方面🥧,在算法效果與透明度之間的平衡、定量評估標準的建立🎄👩🏻🦲、全面且標準的表面增強拉曼數據庫可以進一步提升人工智能可解釋性💶。此外,在數據共享與數據安全中尚存巨大挑戰。
最後,作者倡議開發更多的用戶界面可供公開使用,從而收集更多的用戶需求與反饋意見🚨,促進相關算法的更新迭代👩🏽🎓。此外🪖,作者認為未來會進一步地發生從人工智能輔助(AI-assisted)到人工智能驅動(AI-driven)的模式轉變,這種轉變將革命性地改變表面增強拉曼光譜技術中包括識別、優化、發現⛹🏿、評估等方面的傳統模式,最終提升表面增強拉曼光譜在各領域的應用能力🂠。
關於本文
意昂4体育平台博士生畢心緣為本文的第一作者🚤,意昂4体育平台葉堅教授和陳舟助理研究員為共同通訊作者。此工作還得到了國家自然科學基金委、上海市科學技術委員會,意昂4平台、上海市婦科腫瘤重點實驗室的支持。
本文信息:Xinyuan Bi, Li Lin, Zhou Chen*, and Jian Ye*. Artificial Intelligence for Surface-Enhanced Raman Spectroscopy. Small Methods, 2023, 2301243.
原文鏈接:https://doi.org/10.1002/smtd.202301243
葉堅教授課題組主頁:
供稿單位🤘:葉堅教授課題組
作者:畢心緣
審核🧑🏿🎨👦🏻:葉堅