久久精品国产亚洲高清|精品日韩中文乱码在线|亚洲va中文字幕无码久|伊人久久综合狼伊人久久|亚洲不卡av不卡一区二区|精品久久久久久久蜜臀AV|国产精品19久久久久久不卡|国产男女猛烈视频在线观看麻豆

    1. <style id="76ofp"></style>

      <style id="76ofp"></style>
      <rt id="76ofp"></rt>
      <form id="76ofp"><optgroup id="76ofp"></optgroup></form>
      1. 千鋒教育-做有情懷、有良心、有品質(zhì)的職業(yè)教育機構(gòu)

        手機站
        千鋒教育

        千鋒學(xué)習(xí)站 | 隨時隨地免費學(xué)

        千鋒教育

        掃一掃進入千鋒手機站

        領(lǐng)取全套視頻
        千鋒教育

        關(guān)注千鋒學(xué)習(xí)站小程序
        隨時隨地免費學(xué)習(xí)課程

        當(dāng)前位置:首頁  >  技術(shù)干貨  > 數(shù)據(jù)分析之異常值和重復(fù)值的處理

        數(shù)據(jù)分析之異常值和重復(fù)值的處理

        來源:千鋒教育
        發(fā)布人:wjy
        時間: 2022-08-12 15:18:00 1660288680

        在進行數(shù)據(jù)分析的時候除了有缺失值之外,還可能遇到異常值和重復(fù)值。

        #### 異常值

        異常值:

        > 偏離正常范圍的值,不是錯誤值。
        > 出現(xiàn)的頻率很低,但是會對數(shù)據(jù)分析造成偏差

        常采用蓋帽法或者數(shù)據(jù)離散化進行處理

        屏幕快照 2021-06-03 下午6.48.12

        **1、異常值的判斷**

        也叫n個標(biāo)準(zhǔn)差法,**均值±n個標(biāo)準(zhǔn)差內(nèi)的數(shù)據(jù)叫做正常值**,一般為2-3個標(biāo)準(zhǔn)差

        屏幕快照 2021-06-03 下午6.57.02

        計算均值和標(biāo)準(zhǔn)差

        ```
        import numpy as np
        import pandas as pd

        data = pd.read_excel('university.xlsx')
        jz = data['報名人數(shù)'].mean()
        print(jz)
        bzc = data['報名人數(shù)'].std()
        print(bzc)
        ```

        結(jié)果:

        > ```
        > 1525.2222222222222
        > 4975.899109579891
        > ```

        搭配any(),查看是否有超過上下限的數(shù)據(jù),這種數(shù)據(jù)為異常值

        ```
        top = data['報名人數(shù)'].mean() + 2 * data['報名人數(shù)'].std()
        bottom = data['報名人數(shù)'].mean() - 2 * data['報名人數(shù)'].std()
        ```

        結(jié)果:

        > ```
        > 11477.020441382005
        > -8426.57599693756
        > ```

        是否有超過下限的情況

        ```
        any(data.報名人數(shù) < bottom) # 結(jié)果:False
        ```

        是否有超過上限的情況

        ```
        any(data.報名人數(shù) > top) # 結(jié)果: True
        ```

        查看【報名人數(shù)】為正常值的數(shù)據(jù)

        ```
        data[data['報名人數(shù)'].between(bottom,top)]
        ```

        可以看出少了索引為4和12的數(shù)據(jù),該數(shù)據(jù)報名人數(shù)分別為17388和20000,超出上限11477.020441382005

        屏幕快照 2021-06-03 下午7.08.28

        也可以畫個直方圖看一下數(shù)據(jù)的分布情況,感受一下:

        ```
        data.報名人數(shù).plot(kind ='hist')
        ```

        屏幕快照 2021-06-03 下午7.12.13

        **箱線法**

        > 上四分位數(shù):取3/4位置的數(shù)
        > 下四分位數(shù):取1/4位置的數(shù)
        > 分位差 = 上四分位數(shù)- 下四分位數(shù)
        >
        > 上界 = 上四分位數(shù) + 1.5*分位差
        > 下界= 下四分位數(shù) - 1.5*分位差

        **上界 、下界范圍之內(nèi)的數(shù)據(jù)叫做正常值,范圍之外的叫做異常值。**

        ```
        # 下四分位數(shù)
        Q1 = data.報名人數(shù).quantile(0.25)
        print(Q1)
        # 上四分位數(shù)
        Q3 =data.報名人數(shù).quantile(0.75)
        print(Q3)
        # 分位差
        IQR = Q3 - Q1
        print(IQR)
        # 上界
        print(Q3 + 1.5 * IQR)
        # 下界
        print(Q1 - 1.5 * IQR)
        # 是否有超出上界的數(shù)據(jù)
        print(any(data.報名人數(shù) > Q3 + 1.5 * IQR))
        # 是否有低于下界的數(shù)據(jù)
        print(any(data.報名人數(shù) < Q1 - 1.5 * IQR))
        ```

        結(jié)果:

        > ```
        > 134.5
        > 206.5
        > 72.0
        > 314.5
        > 26.5
        > True
        > True
        > ```

        箱線圖看一下:

        ```
        data.報名人數(shù).plot(kind = 'box')
        ```

        屏幕快照 2021-06-03 下午7.17.21

        說明有超出上限和下限的值

        **2、異常值的處理**

        方法一:

        > 用小于上限最大值去替換超出上限的異常值
        > 用大于下限最小值去替換低于下限的異常值

        數(shù)據(jù)準(zhǔn)備:
        (新增一列【new_報名人數(shù)】數(shù)據(jù),是為了替換異常值后做對比)

        ```
        data['new_報名人數(shù)'] = data['報名人數(shù)']
        ```

        計算小于上限的最大值,作為替換值

        ```
        # 計算小于上限的最大值,作為替換值
        UL = Q3 + 1.5 * IQR
        # 低于上限的最大值
        replace_value = data.new_報名人數(shù)[data.new_報名人數(shù) < UL].max()
        # 用替換值替換超出上限的數(shù)據(jù):
        data.loc[data.new_報名人數(shù)>UL,'new_報名人數(shù)'] = replace_value
        data
        ```

        最終:

        屏幕快照 2021-06-03 下午7.23.45

        方法二:

        > 低于百分之一分位數(shù)的數(shù)據(jù)用百分之一分位數(shù)替換
        > 高于百分之九十九分位數(shù)的數(shù)據(jù)用百分之九十九分位數(shù)替換

        計算百分之一分位數(shù)、百分之九十九分位數(shù)

        ```
        # 百分之一分位數(shù)
        P1=data.new_報名人數(shù).quantile(0.01)

        # 百分之九十九分位數(shù)
        P99=data.new_報名人數(shù).quantile(0.99)

        ```


        進行替換

        ```
        data.loc[data['new_報名人數(shù)']>P99,'new_報名人數(shù)'] = P99

        data.loc[data['new_報名人數(shù)']<P1,'new_報名人數(shù)'] = P1
        ```

        屏幕快照 2021-06-03 下午7.29.22

        #### 重復(fù)值

        一般保留第一條重復(fù)數(shù)據(jù),對其他重復(fù)數(shù)據(jù)進行移除。

        > `判斷重復(fù)值 df.duplicated`
        >
        > df.duplicated(subset=None, keep='first')
        >
        > 參數(shù)說明:
        > subset:列標(biāo)簽,默認使用所有列,若只考慮用某些列來識別重復(fù)項,可指定列
        > keep,默認first,保留重復(fù)值的第一項,也可以指定last,保留最后一項重復(fù)值數(shù)據(jù)
        >
        > 返回的是一個視圖

        ```
        data.duplicated()
        ```

        True為重復(fù)數(shù)據(jù)

        屏幕快照 2021-06-03 下午7.33.10

        取出重復(fù)值

        ```
        data[data.duplicated()]
        ```

        結(jié)果:

        屏幕快照 2021-06-03 下午7.34.34

        按照指定列判斷重復(fù)數(shù)據(jù)

        ```
        data[data.duplicated(subset=['學(xué)院','報名人數(shù)'])]
        ```

        屏幕快照 2021-06-03 下午7.36.17

        **`刪除重復(fù)數(shù)據(jù) df.drop_duplicates`**

        一般有重復(fù)數(shù)據(jù)后可以刪除

        > df.drop_duplicates(subset=None, keep='first', inplace=False)
        >
        > subset:默認全部列,可以指定特定列來判斷重復(fù)數(shù)據(jù)
        > keep:保留重復(fù)數(shù)據(jù)的第一條數(shù)據(jù)
        > inplace:是否就地操作,默認False,返回一個視圖
        > True,就地操作,直接在原數(shù)組數(shù)據(jù)上刪除重復(fù)值

        ```
        data.drop_duplicates(inplace=True)
        data
        ```

        刪除后無重復(fù)數(shù)據(jù)。

         

        tags:
        聲明:本站稿件版權(quán)均屬千鋒教育所有,未經(jīng)許可不得擅自轉(zhuǎn)載。
        10年以上業(yè)內(nèi)強師集結(jié),手把手帶你蛻變精英
        請您保持通訊暢通,專屬學(xué)習(xí)老師24小時內(nèi)將與您1V1溝通
        免費領(lǐng)取
        今日已有369人領(lǐng)取成功
        劉同學(xué) 138****2860 剛剛成功領(lǐng)取
        王同學(xué) 131****2015 剛剛成功領(lǐng)取
        張同學(xué) 133****4652 剛剛成功領(lǐng)取
        李同學(xué) 135****8607 剛剛成功領(lǐng)取
        楊同學(xué) 132****5667 剛剛成功領(lǐng)取
        岳同學(xué) 134****6652 剛剛成功領(lǐng)取
        梁同學(xué) 157****2950 剛剛成功領(lǐng)取
        劉同學(xué) 189****1015 剛剛成功領(lǐng)取
        張同學(xué) 155****4678 剛剛成功領(lǐng)取
        鄒同學(xué) 139****2907 剛剛成功領(lǐng)取
        董同學(xué) 138****2867 剛剛成功領(lǐng)取
        周同學(xué) 136****3602 剛剛成功領(lǐng)取
        相關(guān)推薦HOT
        反欺詐中所用到的機器學(xué)習(xí)模型有哪些?

        一、邏輯回歸模型邏輯回歸是一種常用的分類模型,特別適合處理二分類問題。在反欺詐中,邏輯回歸可以用來預(yù)測一筆交易是否是欺詐。二、決策樹模...詳情>>

        2023-10-14 14:09:29
        軟件開發(fā)管理流程中會出現(xiàn)哪些問題?

        一、需求不清需求不明確是導(dǎo)致項目失敗的主要原因之一。如果需求沒有清晰定義,開發(fā)人員可能會開發(fā)出不符合用戶期望的產(chǎn)品。二、通信不足溝通問...詳情>>

        2023-10-14 13:43:21
        軟件定制開發(fā)中的敏捷開發(fā)是什么?

        軟件定制開發(fā)中的敏捷開發(fā)是什么軟件定制開發(fā)中的敏捷開發(fā),從宏觀上看,是一個高度關(guān)注人員交互,持續(xù)開發(fā)與交付,接受需求變更并適應(yīng)環(huán)境變化...詳情>>

        2023-10-14 13:24:57
        什么是PlatformIo?

        PlatformIO是什么PlatformIO是一個全面的物聯(lián)網(wǎng)開發(fā)平臺,它為眾多硬件平臺和開發(fā)環(huán)境提供了統(tǒng)一的工作流程,有效簡化了開發(fā)過程,并能兼容各種...詳情>>

        2023-10-14 12:55:06
        云快照與自動備份有什么區(qū)別?

        1、定義和目標(biāo)不同云快照的主要目標(biāo)是提供一種快速恢復(fù)數(shù)據(jù)的方法,它只記錄在快照時間點后的數(shù)據(jù)變化,而不是所有的數(shù)據(jù)。自動備份的主要目標(biāo)...詳情>>

        2023-10-14 12:48:59
        金塔县| 拉孜县| 元谋县| 乐亭县| 金湖县| 毕节市| 永修县| 绍兴市| 政和县| 东安县| 南涧| 日照市| 承德市| 大丰市| 南宫市| 芮城县| 金平| 阆中市| 锡林郭勒盟| 西华县| 手游| 新干县| 桐庐县| 云安县| 大关县| 永定县| 徐水县| 阳新县| 阳信县| 佛坪县| 海城市| 铅山县| 拉孜县| 延庆县| 军事| 平乐县| 洛扎县| 宁阳县| 贡嘎县| 乡城县| 仁布县|