如何檢測業務資料中的異常,如何判別測量資料中是否有異常值?

時間 2022-10-08 04:40:54

1樓:成都聚數雲海

處理異常值

異常值的定義是與均值的偏差超過兩倍標準,但是在髒資料中,異常值的情況不止這一種:

1)比如一列資料你開啟看全部是數字,當你把它當數值型處理,它會報錯;那就得仔細查詢原因,遇到比較多的情況是一列數字中夾雜了幾個奇怪的字串或者符號等元素,如果幾萬條資料中只有一兩個這種字元,即使認真從前到後仔細檢視也很難發現還浪費大量時間,效率極低。

還有一種情況比較常見,就是看起來是數字,實際上都是字串的形式,但是以**檢視的時候是看不到字串的引號;這兩種情況可以通過檢視特徵型別來提前發現,在python中用type()或者dtypes()函式,兩者使用物件有差別,可自行了解;

2)幾種常用異常值檢測方法:

3σ探測方法

3σ探測方法的思想其實就是**於切比雪夫不等式。

對於任意ε>0,有:

當時,如果總體為一般總體的時候,統計資料與平均值的離散程度可以由其標準差反映,因此有:

一般所有資料中,至少有3/4(或75%)的資料位於平均2個標準差範圍內。

所有資料中,至少有8/9(或88.9%)的資料位於平均數3個標準差範圍內。

所有資料中,至少有24/25(或96%)的資料位於平均數5個標準差範圍內。

所以如果我們一般是把超過三個離散值的資料稱之為異常值。這個方法在實際應用中很方便的使用,但是他只有在單個屬性的情況下才適用。

z-score

z-score是一維或低維特徵空中的引數異常檢測方法。該技術假定資料是高斯分,異常值是分布尾部的資料點,因此遠離資料的平均值。距離的遠近取決於使用公式計算的歸一化數點z i的設定閾值zthr:

其中xi是乙個資料點,μ是所有點xi的平均值,δ是所有點xi的標準偏。

然後經過標準化處理後,異常值也進行標準化處理,其絕對值大於zthr:

zthr值一般設定為2.5、3.0和3.5。該技術是使用knime工作流中的行過濾器節點實現的。

這種異常值處理需要結合最終需求來決定怎麼處理,常見的是不處理或者按缺失值的方法處理,但是在實際場景中,異常值有時候會有非常突出的表現,比如在現金貸業務中,異常值中的壞賬率遠高於整體壞賬水平或其他區間壞賬水平,這時候異常值就得保留並作為決策閾值的參考值。

iqr觀察箱型圖,或者通過iqr(interquartile range)計算可以得到資料分布的第一和第四分位數,異常值是位於四分位數範圍之外的資料點。

這個方法真的很簡單,因為只需要給資料排個序就行了,顯然過於籠統,但在實際場景中,觀察箱型圖仍然是乙個很好的探索資料分布的方法。

畢竟,所有複雜的探索,都是從最開始簡單的探索一步步得來的嘛!

2樓:士皣趴

在回彈法檢測砼強度中,按批抽樣檢測的測區數量往往很多,這就不可避免出現較多的檢測異常值,怎樣判斷和處理這些異常值,對於提高檢測結果的準確性意義重大。格拉布斯檢驗法是土木工程中常用的一種檢驗異常值的方法,其應用於回彈法檢測砼強度,能有效提高按批抽樣檢測結果的準確性。

怎麼用excel檢測一系列資料中的某個資料是否為異常資料

3樓:

判斷異常的標準是什麼?把問題作為內容(郵件主題一定要包含「excel」,本人以此為依據辨別非垃圾郵件,以免誤刪)、excel樣表檔案(請特別注意:要03版的(如果是03以後的,把檔案「另存為」一下,型別框可以選擇03的),把現狀和目標效果表示出來)作為附件發來看下 [email protected]

4樓:白馬莊園愛

問題可以具體一點嗎?「異常」的條件是什麼,判斷資料是否異常,一般都需要與目標數值比較。因此,excel裡通常使用條件函式 if 來判斷,並且結合「條件格式」來設定資料的文字格式,比如異常資料紅色字型、異常資料單元格填充色等方式突出顯示。

具體操作,可以在excel 「幫助」選單中搜尋函式名稱,可以看到相關教程。

5樓:匿名使用者

總有規則吧!

是可以的!

如何判別測量資料中是否有異常值?

6樓:風險控制薰衣草

1、概述:一組測量資料中,如果個別資料偏離平均值很遠,那麼這個(這些)資料稱作「可疑值」。如果用統計方法—例如格拉布斯(grubbs)法判斷,能將「可疑值」從此組測量資料中剔除而不參與平均值的計算,那麼該「可疑值」就稱作「異常值(粗大誤差)」。

本文就是介紹如何用格拉布斯法判斷「可疑值」是否為「異常值」。

2、測量資料:例如測量10次(n=10),獲得以下資料:8.

2、5.4、14.0、7.

3、4.7、9.0、6.

5、10.1、7.7、6.

0。3、排列資料:將上述測量資料按從小到大的順序排列,得到4.7、5.

4、6.0、6.5、7.

3、7.7、8.2、9.

0、10.1、14.0。

可以肯定,可疑值不是最小值就是最大值。

4、計算平均值x-和標準差s:x-=7.89;標準差s=2.704。計算時,必須將所有10個資料全部包含在內。

5、計算偏離值:平均值與最小值之差為7.89-4.7=3.19;最大值與平均值之差為14.0-7.89=6.11。

6、確定乙個可疑值:比較起來,最大值與平均值之差6.11大於平均值與最小值之差3.19,因此認為最大值14.0是可疑值。

7、計算gi值:gi=(xi-x- )/s;其中i是可疑值的排列序號——10號;因此g10=( x10-x- )/s=(14.0-7.

89)/2.704=2.260。

由於 x10-x-是殘差,而s是標準差,因而可認為g10是殘差與標準差的比值。

8、下面要把計算值gi與格拉布斯表給出的臨界值gp(n)比較,如果計算的gi值大於表中的臨界值gp(n),則能判斷該測量資料是異常值,可以剔除。但是要提醒,臨界值gp(n)與兩個引數有關:檢出水平α (與置信概率p有關)和測量次數n (與自由度f有關)。

9、定檢出水平α:如果要求嚴格,檢出水平α可以定得小一些,例如定α=0.01,那麼置信概率p=1-α=0.

99;如果要求不嚴格,α可以定得大一些,例如定α=0.10,即p=0.90;通常定α=0.

05,p=0.95。

10、查格拉布斯表獲得臨界值:根據選定的p值(此處為0.95)和測量次數n(此處為10),查格拉布斯表,橫豎相交得臨界值g95(10)=2.176。

11、比較計算值gi和臨界值g95(10):gi=2.260,g95(10)=2.176,gi>g95(10)。

12、判斷是否為異常值:因為gi>g95(10),可以判斷測量值14.0為異常值,將它從10個測量資料中剔除。

13、餘下資料考慮:剩餘的9個資料再按以上步驟計算,如果計算的gi>g95(9),仍然是異常值,剔除;如果gi<g95(9),不是異常值,則不剔除。本例餘下的9個資料中沒有異常值。

怎麼對統計資料的異常值進行判斷和處理?

7樓:諾諾百科

異常值也稱離群值,具體地說,判斷標準依據實際情況,根據業務知識及實際需要而定。

上界=75%分位數+(75%分位數-25%分位數)*1.5下界=25%分位數- (75%分位數-25%分位數)*1.5比上界大的和比下界小的都是異常值。

8樓:水清霞明

異常值,指的是樣本中的一些數值明顯偏離其餘數值的樣本點,所以也稱為離群點。異常值分析就是要將這些離群點找出來,然後進行分析。

異常值判斷

在不同的資料中,鑑別異常值有不同的標準,常規有以下幾種:

(1)數字超過某個標準值

這是最常用的異常值判斷方法之一。主要是看資料中的最大值或最小值,依據專業知識或個人經驗,判斷是否超過了理論範圍值,資料中有沒有明顯不符合實際情況的錯誤。

比如,測量成年男性身高(m),出現17.8m這樣的資料,顯然不符合實際情況。

又或者,如問卷資料使用1-5級量表進行研究,出現-2,-3這類資料,則可能提示為跳轉題、空選等。

(2)資料大於±3標準差

3σ 原則是在資料服從正態分佈的時候用的比較多,在這種情況下,異常值被定義為一組測定值中與平均值的偏差超過3倍標準差的值。

在資料處理的時候,按照正態分佈的性質,三個標準差以外的資料都可以被看作是錯誤的資料從而排除掉。

9樓:匿名使用者

gb/t 4883《資料的統計處理和解釋 正態樣本離群值的判斷和處理》

怎麼對統計資料的異常值進行判斷和處理

10樓:匿名使用者

異常值也稱離群值,具體地說,判斷標準依據實際情況,根據業務知識及實際需要而定.

要是一般地說,可以用公式計算:

upper adjacent value = 75th percentile + (75th percentile – 25th percentile) * 1.5

lower adjacent value = 25th percentile – (75th percentile – 25th percentile) * 1.5

翻譯過來:

上界=75%分位數+(75%分位數-25%分位數)*1.5下界=25%分位數- (75%分位數-25%分位數)*1.5比上界大的,和比下界小的都是異常值.

如何分別審計中的鑑證業務和非鑑證業務

鑑證業務和非鑑證業務的區別如下 1 處理方法不同 非鑑證業務應按年計算,分月或分季預繳。每月終了,企業應將成本費用和稅金類科目的月末餘額轉入 本年利潤 科目的借方,將收入類科目的餘額轉入 本年利潤 科目的貸方。然後再計算 本年利潤 科目的本期借貸方發生額之差。貸方餘額則為企業實現的利潤總額即稅前會計...

如何分別審計中的鑑證業務和非鑑證業務

鑑證業務就是註冊會計師對於被審計物件給與了一定程度的保證,這種保證可能是合理性保證 審計 或者是有限保證 審閱 報告使用者可以依賴註冊會計師的保證做出決策。非鑑證業務就是註冊會計師沒有給出任何程度的保證,僅僅是陳述乙個事實,最終的決策完全依靠報告使用者的判斷。鑑證業務是指註冊會計師對鑑證物件資訊提出...

如何辦理中國移動的空中充值業務,如何開通中國移動,中國聯通的空中充值業務

答 1 代銷商成功辦理空中充值申請並預存一定的金額後,可通過簡訊和語音兩種方式進行空中充值轉款操作。1 簡訊方式 代銷商使用專用的空中充值sim卡傳送充值簡訊至1861,通過簡訊接入平台向營帳系統傳送充值請求,由營帳系統完成充值操作。2 語音方式 商使用其手機撥打空中充值自動語音接入號碼1861,根...

c存在 arraylist中的資料,如何查詢顯示出來

一 我們先建立乙個二維陣列 listview1.view view.details listview1.columns.add 姓名 listview1.columns.add 語文 listview1.columns.add 數學 listview1.columns.add 科學 listview...

如何把資料庫裡的資料匯出到excl表中

1 介面操作 選擇資料庫後點右鍵 所有任務 匯出資料,然後根據嚮導選擇要匯出的資料庫和目標excel檔案路徑,接著選擇匯出的表就可以了 2 操作,以下是鄒建大俠的通用匯出excel儲存過程 資料匯出excel 匯出查詢中的資料到excel,包含欄位名,檔案為真正的excel檔案 如果檔案不存在,將自...