在統計學中為什麼要對變數取對數

2021-04-17 13:51:27 字數 3909 閱讀 7471

1樓:匿名使用者

平時在一些資料處理中,經常會把原始資料取對數後進一步處理。之所以這樣做是基於對數函式在其定義域內是單調增函式,取對數後不會改變資料的相對關係,取對數作用主要有:

1. 縮小資料的絕對數值,方便計算。例如,每個資料項的值都很大,許多這樣的值進行計算可能對超過常用資料型別的取值範圍,這時取對數,就把數值縮小了,例如tf-idf計算時,由於在大規模語料庫中,很多詞的頻率是非常大的數字。

2. 取對數後,可以將乘法計算轉換稱加法計算。

3. 某些情況下,在資料的整個值域中的在不同區間的差異帶來的影響不同。例如,中文分詞的mmseg演算法,計算語素自由度時候就取了對數,這是因為,如果某兩個字的頻率分別都是500,頻率和為1000,另外兩個字的頻率分別為200和800,如果單純比較頻率和都是相等的,但是取對數後,log500=2.

69897, log200=2.30103, log800=2.90308 這時候前者為2log500=5.

39794, 後者為log200+log800=5.20411,這時前者的和更大,取前者。因為前面兩個詞頻率都是500,可見都比較常見。

後面有個詞頻是200,說明不太常見,所以選擇前者。

從log函式的影象可以看到,自變數x的值越小,函式值y的變化越快,還是前面的例子,同樣是相差了300,但log500-log200>log800-log500,因為前面一對的比後面一對更小。

也就是說,對數值小的部分差異的敏感程度比數值大的部分的差異敏感程度更高。這也是符合生活常識的,例如對於**,買個家電,如果**相差幾百元能夠很大程度影響你決策,但是你買汽車時相差幾百元你會忽略不計了。

4. 取對數之後不會改變資料的性質和相關關係,但壓縮了變數的尺度,例如800/200=4, 但log800/log200=1.2616,資料更加平穩,也消弱了模型的共線性、異方差性等。

5. 所得到的資料易消除異方差問題。

6. 在經濟學中,常取自然對數再做回歸,這時回歸方程為 lny=a lnx+b ,兩邊同時對x求導,1/y*(dy/dx)=a*1/x, b=(dy/dx)*(x/y)=(dy*x)/(dx*y)=(dy/y)/(dx/x) 這正好是彈性的定義。

當然,如果資料集中有負數當然就不能取對數了。實踐中,取對數的一般是水平量,而不是比例資料,例如變化率等。

2樓:匿名使用者

使得資料收斂,並且盡量在(0,1)之間,好處理。

3樓:小么同學

取對bai數可以將大於中位數的du

值按一定比例縮小zhi,從而形成正態dao分布的資料內。

1.研究的自變數數量容級不一致時,取對數可消除這種數量級相差很大的情況。

2.取對數可以消除異方差。

3.取對數可以使非線性的變數關係轉化為線性關係,更方便做引數估計。

我正在cda資料分析師培訓,這部分知識剛好老師剛剛講到。希望我的理解是準確的並對你有幫助

在統計學中為什麼要對變數取對數

4樓:匿名使用者

我能想bai

到的有兩點

作用1: 對有些存在異du

常大zhi的觀測值的變數dao,取對數可以減小方差內作用2: 對只有取正值容才有意義的變數,例如重量,如果直接進行線性回歸,那麼可能產生沒有意義的負的**值,所以有時會考慮對對數值進行回歸分析而不是原始的觀測值,這樣就不會產生沒有意義的**值。

5樓:匿名使用者

取對數是為了將乘式轉化為直線方程。回歸分析常用。

在統計學中為什麼要對變數取對數

在統計學中為什麼要對變數取對數

6樓:匿名使用者

告訴你為什麼資料要取對數

平時在一些資料處理中,經常會把原始資料取對數後進一步處理。之所以這樣做是基於對數函式在其定義域內是單調增函式,取對數後不會改變資料的相對關係,取對數作用主要有:

1. 縮小資料的絕對數值,方便計算。例如,每個資料項的值都很大,許多這樣的值進行計算可能對超過常用資料型別的取值範圍,這時取對數,就把數值縮小了,例如tf-idf計算時,由於在大規模語料庫中,很多詞的頻率是非常大的數字。

2. 取對數後,可以將乘法計算轉換稱加法計算。

3. 某些情況下,在資料的整個值域中的在不同區間的差異帶來的影響不同。例如,中文分詞的mmseg演算法,計算語素自由度時候就取了對數,這是因為,如果某兩個字的頻率分別都是500,頻率和為1000,另外兩個字的頻率分別為200和800,如果單純比較頻率和都是相等的,但是取對數後,log500=2.

69897, log200=2.30103, log800=2.90308 這時候前者為2log500=5.

39794, 後者為log200+log800=5.20411,這時前者的和更大,取前者。因為前面兩個詞頻率都是500,可見都比較常見。

後面有個詞頻是200,說明不太常見,所以選擇前者。

從log函式的影象可以看到,自變數x的值越小,函式值y的變化越快,還是前面的例子,同樣是相差了300,但log500-log200>log800-log500,因為前面一對的比後面一對更小。

也就是說,對數值小的部分差異的敏感程度比數值大的部分的差異敏感程度更高。這也是符合生活常識的,例如對於**,買個家電,如果**相差幾百元能夠很大程度影響你決策,但是你買汽車時相差幾百元你會忽略不計了。

4. 取對數之後不會改變資料的性質和相關關係,但壓縮了變數的尺度,例如800/200=4, 但log800/log200=1.2616,資料更加平穩,也消弱了模型的共線性、異方差性等。

5. 所得到的資料易消除異方差問題。

6. 在經濟學中,常取自然對數再做回歸,這時回歸方程為 lny=a lnx+b ,兩邊同時對x求導,1/y*(dy/dx)=a*1/x, b=(dy/dx)*(x/y)=(dy*x)/(dx*y)=(dy/y)/(dx/x) 這正好是彈性的定義。

當然,如果資料集中有負數當然就不能取對數了。實踐中,取對數的一般是水平量,而不是比例資料,例如變化率等。

在統計學中為什麼要對變數取對數

7樓:bv規範

有很多原因啊.(來1)減弱

源模型中資料的異方差性,只能是減弱,並不能徹底消除(2)模型形式的需要,利用線性回歸模型的前提是解釋變數和被解釋變數之間的線性關係,但是在實際中這一點很難滿足,很多的時候需要對多個變數或者是單一變數做對數變換,讓模型的形式變為線性(3)取對數,再配合差分變化,把絕對數變成相對數,這樣,資料更能表示變動的相關性.(4)對取對數以後的經濟資料進行線性回歸,其前面的引數表示的就是百分比變化率(dlnx=dx/x),也就是彈性(5)有時候變數不符合正態分佈的假定,取了對數可以漸近正態分佈………………

在統計學中為什麼要對變數取對數

8樓:愉快放假

有很多原因啊bai.

(1)減弱模型du中資料的異方zhi差性,只能

是減弱,並不能徹dao底消除

內(2)模型形式的需要,利用線性容回歸模型的前提是解釋變數和被解釋變數之間的線性關係,但是在實際中這一點很難滿足,很多的時候需要對多個變數或者是單一變數做對數變換,讓模型的形式變為線性

(3)取對數,再配合差分變化,把絕對數變成相對數,這樣,資料更能表示變動的相關性.

(4)對取對數以後的經濟資料進行線性回歸,其前面的引數表示的就是百分比變化率(dlnx=dx/x),也就是彈性

(5)有時候變數不符合正態分佈的假定,取了對數可以漸近正態分佈………………

在統計學中為什麼要對變數取對數

在統計學中為什麼要對變數取對數

9樓:匿名使用者

研究的自變數數量級不一致時,取對數可消除這種數量級相差很大的情況。

取對數可以盡量消除異方差。

取對數可以使非線性的變數關係轉化為線性關係,更方便做引數估計。

醫學統計學,為什麼檢驗水準常取,醫學統計學,為什麼檢驗水準常取

統計學裡面的檢驗水準又叫做顯著水平,依據是小概率事件原理,即普遍認為概回率 答0.05或0.01的事件為小概率事件,小概率事件在一次實驗中被認為是不可能發生的,如果假設檢驗的零假設發生概率 0.05,則其是小概率事件,我們就從概率水平否定它。統計學裡面 在 0.05的水準 什麼意思 應該有多種理解方...

統計學小白提問,spss分析協變數時,為什麼要對協變數和因變數進行互動作用分析?求詳細解釋

協方差有應用條件,協變數對 自變數和因變數的影響 是相同的 spss的多因素方差分析中,怎麼判斷乙個因素是否為協變數?多因抄素方差分析是研究兩個及兩個以上控制變數是否對觀測變數產生顯著影響。而協變數是存在於協方差分析中人們往往比較難以控制的因素。舉個例子說,用了幾種不同的教學方法來給40名學生教英語...

怎樣理解平均數在統計學中的地位統計學!在加權算數平均數中,如何理解權數意義。簡答

平均數是集中量數的代表,也是最常用的一種描述統計指標.它反映了資料的代表性.也即可以通過平均數對資料的集中性或代表性有乙個直觀的了解.其次,平均數也是常用的一種統計量,許多推斷統計方法都是基於平均數進行的.目前大多數統計方法中,平均數都占有最重要的位置.無論是要掌握某個總體的狀況,還是要比較不同總體...