-
當前位置:首頁 > 創(chuàng)意學院 > 技術 > 專題列表 > 正文
sem和sd轉換(sd和se的轉換)
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關于sem和sd轉換的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。
開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等
只需要輸入關鍵詞,就能返回你想要的內容,越精準,寫出的就越詳細,有微信小程序端、在線網頁版、PC客戶端
創(chuàng)意嶺作為行業(yè)內優(yōu)秀的企業(yè),服務客戶遍布全球各地,如需了解SEO相關業(yè)務請撥打電話175-8598-2043,或添加微信:1454722008
本文目錄:
一、科學論文里經常出現的Means and s.e.m是什么意思
mean±SD或 mean±SEM平均數±標準差或標準誤
standard error of measurement
The standard deviation (SD) represents variation in the values of a variable, whereas the standard error of the mean (SEM) represents the spread that the mean of a sample of the values would have if you kept taking samples. So the SEM gives you an idea of the accuracy of the mean, and the SD gives you an idea of the variability of single observations. The two are related: SEM = SD/(square root of sample size).
簡單地說就是平均數的抽樣誤差,反映平均數的抽樣準確性,國內用標準偏移值SD的較多,SEM=SD除以(樣本數的平方根)……
二、差異分析用SD還是SEM
sd
如果你的結果的方差比較小的話,用sd即可,如果稍微有些大,sem可以讓誤差線看起來小一些。
三、meansd誤差很大可以用sem嗎
meansd誤差很大可以用sem。根據查詢相關資料,sd誤差很大說明不適合使用標準差描述數據的差異,可以使用sem計算,誤差線更小,能反映實際情況。
四、標準差和標準誤
標準差,縮寫為S.D., SD, 或者 s (就是為了把人給弄暈?),是描述數據點在均值(mean)周圍聚集程度的指標。
如果把單個數據點稱為“ X i ,” 因此 “ X 1 ” 是第一個值,“ X 2 ” 是第二個值,以此類推。均值稱為“ M ”。初看上去Σ( X i - M )就可以作為描述數據點散布情況的指標,也就是把每個 X i 與 M 的偏差求和。換句話講,是(單個數據點—數據點的平均)的總和。
看上去挺有邏輯性的,但是它有兩個缺點。
第一個困難是:上述定義的結果永遠是0。根據定義,高出均值的和永遠等于低于均值的和,因此它們相互抵消??梢匀〔钪档慕^對值來解決(也就是說,忽略負值的符號),但是由于各種神秘兮兮的原因,統(tǒng)計學家不喜歡絕對值。另外一個剔除負號的方法是取平方,因為任何數的平方肯定是正的。所以,我們就有Σ( X i - M ) 2 。
另外一個問題是當我們增加數據點后此等式的結果會隨之增大。比如我們手頭有25個值的樣本,根據前面公式計算出SD是10。如果再加25個一模一樣的樣本,直覺上50個大樣本的數據點分布情況應該不變。但是我們的公式會產生更大的SD值。好在我們可以通過除以數據點數量 N 來彌補這個漏洞。所以等式就變成Σ( X i - M ) 2 / N .
根據墨菲定律,我們解決了兩個問題,就會隨之產生兩個新問題。
第一個問題(或者我們應該稱為第三個問題,這樣能與前面的相銜接)是用平方表達偏差。假設我們測量自閉癥兒童的IQ。也許會發(fā)現IQ均值是75, 散布程度是100 個IQ點平方。這IQ點平方又是什么東西?不過這容易處理:用結果的平方根替代,這樣結果就與原來的測量單位一致。所以上面的例子中的散布程度就是10個IQ點,變得更加容易理解。
最后一個問題是目前的公式是一個有偏估計,也就是說,結果總是高于或者低于真實的值。解釋稍微有點復雜,先要繞個彎。在多數情況下,我們做研究的時候,更感興趣樣本來自的總體(population)。比如,我們探查有年輕男性精神分裂癥患者的家庭中的外現情緒(expressed emotion,EE)水平時,我們的興趣點是所有滿足此條件的家庭(總體),而不單單是哪些受研究的家庭。我們的工作便是從樣本中估計出總體的均值(mean)和SD。因為研究使用的只是樣本,所以這些估計會與總體的值未知程度的偏差。理想情況下,計算SD的時候我們應當知道每個家庭的分值(score)偏離總體均值的程度,但是我們手頭只有樣本的均值。
根據定義,分值樣本偏離樣本均值的程度要小于偏離其他值,因此使用樣本均值減去分值得到的結果總是比用總體均值(還不知道)減去分值要小,公式產生的結果也就偏?。ó斎籒很大的時候,這個偏差就可以忽略)。為了糾正這個問題,我們會用N-1除,而不是N??傊詈笪覀兊玫搅诵拚臉藴什畹模ü烙嫞┕剑ǚQ為樣本標準差):
順帶一下,不要直接使用此公式計算SD,會產生很多舍入誤差(rounding error)。統(tǒng)計學書一般會提供另外一個等同的公式,能獲得更加精確的值。
現在我們完成了所有推導工作,這意味著什么呢?
假設數據是正態(tài)分布的,一旦知道了均值和SD,我們便知道了分值分布的所有情況。對于任一個正態(tài)分布,大概2/3(精確的是68.2%)的分值會落在均值-1 SD和均值+1 SD之間,95.4%的在均值-2 SD 和均值+2 SD之間。比如,大部分研究生或者職業(yè)院校的入學考試(GRE,MCAT,LSAT和其他折磨人的手段)的分數分布(正態(tài))就設計成均值500,SD 100。這意味68%的人得分在400到600之間,略超過95%的人在300到700之間。使用正態(tài)曲線的概率表,我們就能準確指出低于或者高于某個分數的比例是多少。相反的,如果我們想讓5%的人淘汰掉,如果知道當年測試的均值和SD,依靠概率表,我們就能準確劃出最低分數線。
總結一下,SD告訴我們分值圍繞均值的分布情況?,F在我們轉向標準誤差(standard error)。
前面我提到過大部分研究的目的是估計某個總體(population)的參數,比如均值和SD(標準方差)。一旦有了估計值,另外一個問題隨之而來:這個估計的精確程度如何?這問題看上去無解。我們實際上不知道確切的總體參數值,所以怎么能評價估計值的接近程度呢?挺符合邏輯的推理。但是以前的統(tǒng)計學家們沒有被嚇倒,我們也不會。我們可以求助于概率:(問題轉化成)真實總體均值處于某個范圍內的概率有多大?(格言:統(tǒng)計意味著你不需要把話給說絕了。)
回答這個疑問的一種方法重復研究(實驗)幾百次,獲得很多均值估計。然后取這些均值估計的均值,同時也得出它的標準方差(估計)。然后用前面提到的概率表,我們可估計出一個范圍,包括90%或者95%的這些均值估計。如果每個樣本是隨機的,我們就可以安心地說真實的(總體)均值90%或者95%會落在這個范圍內。我們給這些均值估計的標準差取一個新名字:均值的標準誤差(the standard error of the mean),縮寫是SEM,或者,如果不存在混淆,直接用 SE 代表。
但是首先得處理一個小紕漏:重復研究(實驗)幾百次?,F今做一次研究已經很困難了,不要說幾百次了(即使你能花費整個余生來做這些實驗)。好在一向給力的統(tǒng)計學家們已經想出了基于單項研究(實驗)確定 SE 的方法。讓我們先從直觀的角度來講:是哪些因素影響了我們對估計精確性的判斷?一個明顯的因素是研究的規(guī)模。樣本規(guī)模 N 越大,反常數據對結果的影響就越小,我們的估計就越接近總體的均值。所以, N 應該出現在計算 SE 公式的分母中:因為 N 越大, SE 越小。類似的,第二因素是:數據的波動越小,我們越相信均值估計能精確反映它們。所以, SD 應該出現在計算公式的分子上: SD 越大, SE 越大。因此我們得出以下公式:
(為什么不是 N ? 因為實際是我們是在用 N 除方差 SD 2 ,我們實際不想再用平方值,所以就又采用平方根了。)
所以, SD 實際上反映的是數據點的波動情況,而 SE 則是均值的波動情況。
前面一節(jié),針對 SE ,我們提到了某個值范圍。我們有95%或者99%的信心認為真實值就處在當中。我們稱這個值范圍為“置信區(qū)間”,縮寫是CI。讓我們看看它是如何計算的??凑龖B(tài)分布表,你會發(fā)現95%的區(qū)域處在-1.96 SD 和+1.96 SD 之間?;仡櫟角懊娴腉RE和MCAT的例子,分數均值是500, SD是100,這樣95%的分數處在304和696之間。如何得到這兩個值呢?首先,我們把 S D乘上1.96,然后從均值中減去這部分,便得到下限304。如果加到均值上我們便得到上限696。CI也是這樣計算的,不同的地方是我們用 SE 替代 SD 。所以計算95%的CI的公式是: 95%CI= 均值± ( 1.96 x SE )。
好了,現在我們有 SD , SE 和CI。問題也隨之而來:什么時候用?選擇哪個指標呢?很明顯,當我們描述研究結果時, SD 是必須報告的。根據 SD 和樣本大小,讀者很快就能獲知 SE 和任意的 CI 。如果我們再添加上SE和CI,是不是有重復之嫌?回答是:“YES”和“NO”兼有。
本質上,我們是想告之讀者通常數據在不同樣本上是存在波動的。某一次研究上獲得的數據不會與另外一次重復研究的結果一模一樣。我們想告之的是期望的差異到底有多大:可能波動存在,但是沒有大到會修改結論,或者波動足夠大,下次重復研究可能會得出相反的結論。
某種程度上來講,這就是檢驗的顯著程度,P level 越低,結果的偶然性就越低,下次能重復出類似結果的可能性越高。但是顯著性檢驗,通常是黑白分明的:結果要么是顯著的,要么不是。如果兩個實驗組的均值差別只是勉強通過了P < 0.05的紅線,也經常被當成一個很穩(wěn)定的結果。如果我們在圖表中加上CI,讀者就很容易確定樣本和樣本間的數據波動會有多大,但是我們選擇哪個CI呢?
我們會在圖表上加上error bar(誤差條,很難聽),通常等同于1個 SE 。好處是不用選擇SE或者CI了(它們指向的是一樣的東西),也無過多的計算。不幸的這種方法傳遞了很少有用信息。一個error bar (-1 SE,+1 SE )等同于68%的CI;代表我們有68%的信心真的均值(或者2個實驗組的均值的差別)會落在這個范圍內。糟糕的是,我們習慣用95%,99% 而不是68%。所以讓忘記加上 SE 吧,傳遞的信息量太少了,它的主要用途是計算CI。
那么把error bar加長吧,用2個 SE 如何?這好像有點意思,2是1.96的不錯估計。有兩方面的好處。首先這個方法能顯示95%的CI,比68%更有意義。其次能讓我們用眼睛檢驗差別的顯著性(至少在2個實驗組的情況下是如此)。如果下面bar的頂部和上面bar的底部沒有重疊,兩個實驗組的差異必定是顯著的(5%的顯著水平)。因此我們會說,這2個組間存在顯著差別。如果我們做t-test,結果會驗證這個發(fā)現。這種方法對超過2個組的情況就不那么精確了。因為需要多次比較(比如,組1和組2,組2和組3,組1和組3),但是至少能給出差別的粗略指示。在表格中展示CI的時候,你應該給出確切的數值(乘以1.96而不是2)。
SD 反映的是數據點圍繞均值的分布狀況,是數據報告中必須有的指標。 SE 則反映了均值波動的情況,是研究重復多次后,期望得到的差異程度。 SE 自身不傳遞很多有用的信息,主要功能是計算95%和99%的CI。 CI是顯著性檢驗的補充,反映的是真實的均值或者均值差別的范圍。
一些期刊已把顯著性檢驗拋棄了,CI取而代之。這可能走過頭了。因為這兩種方法各有優(yōu)點,也均會被誤用。比如,一項小樣本研究可能發(fā)現控制組和實驗組間的差別顯著(0.05的顯著水平)。如果在結果展示加上CI,讀者會很容易看到CI十分寬,說明對差別的估計是很粗糙的。與之相反,大量鼓吹的被二手煙影響的人數,實際上不是一個均值估計。最好的估計是0,它有很寬的CI,報道的卻只是CI的上限。
總之, SD 、顯著性檢驗,95%或者99% 的CI,均應該加在報告中 ,有利于讀者理解研究結果。它們均有信息量,能相互補充,而不是替代。相反,“ 裸”的 SE 的并不能告訴我們什么信息**,多占據了一些篇幅和空間而已。
以上就是關于sem和sd轉換相關問題的回答。希望能幫到你,如有更多相關問題,您也可以聯(lián)系我們的客服進行咨詢,客服也會為您講解更多精彩的知識和內容。
推薦閱讀:
百度Seo在線優(yōu)化(百度seo在線優(yōu)化方案)
seo網頁優(yōu)化工具(seo網頁優(yōu)化工具是什么)
seo主要是優(yōu)化(seo主要優(yōu)化目的是啥)