彩色編碼使航空地圖更容易理解。通過顏色,我們可以一眼看出哪里有道路、森林、沙漠、城市、河流或湖泊。
美國能源部(DOE)阿貢國家實驗室與幾所大學合作,設計了一種方法,用于創建X射線分析大量數據的彩色編碼圖。這個新工具使用計算數據排序來查找與物理特性相關的簇,例如晶體結構中的原子畸變。這將大大加快未來對溫度變化引起的原子尺度結構變化的研究。
該研究小組在《美國國家科學院院刊》上發表了一篇題為“利用可解釋和無監督的機器學習來處理現代X射線衍射的大數據”的文章,發表了他們的發現
“我們的方法使用機器學習來快速分析來自X射線衍射的大量數據,”阿貢材料科學部門的高級物理學家雷蒙德·奧斯本(Raymond Osborn)說。“過去花了我們幾個月的時間,現在花了大約四分之一小時,結果更加精細。”
一個多世紀以來,X射線衍射(或XRD)一直是分析材料的所有科學方法中最富有成果的方法之一。它提供了無數具有重要技術意義的材料的三維原子結構的關鍵信息。
近幾十年來,在大型設施中,如阿貢的美國能源部科學辦公室用戶設施先進光子源(APS),XRD實驗產生的數據量大幅增加。然而,非常缺乏能夠處理這些龐大數據集的分析方法。
該團隊稱他們的新方法為X射線溫度聚類,簡稱XTEC。它通過對大型X射線數據集進行快速聚類和顏色編碼,以揭示先前隱藏的隨著溫度升高或降低而發生的結構變化,從而加速材料發現。一個典型的大數據集是10000 GB,相當于大約300萬首流媒體音樂歌曲。
XTEC利用了無監督機器學習的力量,使用了康奈爾大學為該項目開發的方法。這種機器學習不依賴于初始訓練和學習,數據已經得到了很好的研究。相反,它通過在大型數據集中尋找模式和聚類進行學習,而無需進行此類訓練。然后用顏色編碼來表示這些圖案。
“例如,XTEC可能會將red分配給數據集群一,該集群一與特定屬性相關,該屬性以特定方式隨溫度變化,”奧斯本說。然后,簇二將是藍色的,并與另一個具有不同溫度依賴性的屬性相關聯,依此類推。顏色決定每個簇是否代表航空地圖中的道路、森林或湖泊
作為一個測試案例,XTEC分析了來自APS光束線6-ID-D的數據,這些數據取自兩種在接近絕對零度的溫度下超導的晶體材料。在這種超低溫下,這些材料轉變為超導狀態,對電流沒有電阻。對本研究更重要的是,在更高的溫度下,與材料結構變化相關的其他異常特征也會出現。
通過應用XTEC,研究小組獲得了前所未有的關于不同溫度下原子結構變化的信息。這些不僅包括材料中原子有序排列的扭曲,還包括發生這種變化時發生的波動。
“由于機器學習,我們能夠看到傳統XRD無法看到的材料行為,”奧斯本說。“我們的方法不僅適用于超導體中的許多大數據問題,也適用于電池、太陽能電池和任何溫度敏感設備。”
APS正在進行大規模升級,將其X射線束的亮度提高500倍。隨著升級,APS收集的數據將顯著增加,機器學習技術對于及時分析這些數據至關重要。