用簡單易懂的語言描述 過擬合overfitting ?

2025-06-02 03:30:19 字數 1373 閱讀 5226

1樓:台山玉

簡單的說就是這樣一種學習現象:ein很小,eout卻很大。

而ein和eout都很大的情況叫做underfitting。

這是機器學習中兩種常見的問題。

發生overfitting的主要原因是:(1)使用過於複雜的模型(dvc很大);(2)資料噪音;(3)有限的訓練資料。

噪音與資料規模。

我們可以理解地簡單些:有噪音時,更復雜的模型會盡量去覆蓋噪音點,即對資料過擬合!

這樣,即使訓練誤差ein很小(接近唯跡於零),由於沒有描繪真實的資料趨勢,eout反而會更大。

即噪音嚴重誤導了我們的假設。

還有一種情況,如果資料是由我們不知道的某個非常非常複雜的模型產生的,實際上有限的資料很難去「代表」這個複雜模型曲線。我們採用不恰當的假設去儘量擬合這些資料,效果一樣會很差,因為部分資料對於我們不恰當的複雜假設就像是「噪音」,誤導我們進行過擬合。

隨機噪音與確定性噪音 (deterministic noise)

之前說的噪音一般指隨機噪音(stochastic noise),服從高斯分佈;還有另一種「噪音」,就是前面提到的由未知的複雜函式f(x) 產生的資料,對於我們的假設也是噪音,這種是確定性噪音。

可見,資料規模一定時,隨機噪音越大,或者確定性噪音越大(即目標函式越複雜),越容易發生overfitting。總之,容易導致overfitting的橡山態因素是:資料過少;隨機噪音過多;確定性噪音過多;假設過於複雜(excessive power)。

如果我們的假設空間不包含真正的目標函式f(x)(未知的),那麼無論如何h 無法描述f(x) 的全部特徵。這時就會發生確定性噪音。它與隨機噪音是不同的。

我們可以類比的理解它:在計算機中隨機數實際上是「偽隨機數」,是通過某個複雜的偽隨機數演算法產生的,因為它對於一般的程式都是雜亂無章的,我們可以把偽隨機數當做隨機數來使用。確定性噪音的哲學思想與之類梁源似。

2樓:消化

過擬合是指為了得到一致假設而使假設變得過度嚴格。避免過擬合是分類器設計中的乙個核心任務。通常採用增大緩敬衡資料量和測試樣本集的方法對分類器效能進行評價。

概念為了得到一致假設而使假設擾做變得過度嚴格稱為過擬合。

定義給定乙個假設空間h,乙個假設h屬於h,如果存在其他的假設h』屬於h,使得在訓練樣例上h的稿伍錯誤率比h』小,但在整個例項分佈上h』比h的錯誤率小,那麼就說假設h過度擬合訓練資料。

判斷方法。乙個假設在訓練資料上能夠獲得比其他假設更好的擬合,但是在訓練資料外的資料集上卻不能很好地擬合資料,此時認為這個假設出現了過擬合的現象。出現這種現象的主要原因是訓練資料中存在噪音或者訓練資料太少。

常用的程式語言都有哪些?

3樓:網友

2019年的程式語言排行。

如何用生動形象,通俗易懂的語言描述古詩《小池》所描寫的畫面

這你這一句小池的描寫,主要是反映了生活當中對小吃的讚美景色的美麗。我覺得小時描述的畫面就是和花生長得好,而且有那種動態美。如何用生動形象,通俗易懂的語言描述果汁小吃所描寫的畫面我沒有開過小吃,所以不知道怎麼改寫啊。如何用生動形象通俗易懂的語言描述古詩小時所描寫的畫面沒看過這個也不會描。如何用生動形象...

什麼是市盈率,用最通俗易懂的語言

市盈率 price earnings ratio,簡來稱p e或per 也稱 源本益比 股價收益比率 或 市價盈利比率 簡稱市盈率 市盈率是指 除以每股收益 每股收益,eps 的比率。或以公司市值除以年度股東應佔溢利。計算時,股價通常取最新 價,而eps方面,若按已公布的上年度eps計算,稱為歷史市...

誰來幫用通俗易懂的語言解釋下java的反射機制

零息bai債券是指以貼現方式 du發行,不附zhi息票,而於 到期日dao時按面值一次專 性支付本利的債券。屬其具體特點在於 該類債券以低於面值的貼現方式發行,由其發行貼現率決定債券的利息率 該類債券的兌付期限固定,到期後將按債券面值還款,形式上無利息支付問題 該類債券的收益力具有先定性,對於投資者...