歷史題中國古代的選舉與西方現在流行的選舉之間根本性差別

2022-02-01 19:48:34 字數 5825 閱讀 4323

1樓:冬夏

摘要:本文採用「以小人之心度君子之腹」的套路,主要基於高中所學知識,對語言學的基礎知識,即語言文字的出現和發展、特點和變化進行了總結,並提取了一些自然語言處理的背景知識,以加深對nlp的理解。

1. 引言

自然語言處理(natural laguage processing, nlp)是人工智慧領域最火熱的方向之一,大家在裡面投入了大量的人財物,完成了不少有意義的工作,比如效果良好的翻譯工具、實用的智慧型個人助理、越來越善解人意的推薦系統等等。作為這方面的工程師,我似乎在演算法的汪洋大海中迷失了。

為什麼這麼說呢?nlp這門學科的目標是實現機器和人的無障礙交流,並為此融合了語言學、電腦科學、數學等學科的理論和方法——而我,咔咔學了這幾年,幾乎沒有語言學方面的積累,幾乎沒有意識到語言學和nlp中的聯絡。

最近,我仔細看了葉蜚聲和徐通鏘的《語言學綱要》,並基於本人在nlp方面(不多的)積累進行了簡單思考,最後以部落格的形式記錄下來。

2. 從自然、意識、語言、口語到書面語——這是歷史的程序

我們常說提公升生產力是歷史程序的最終方向。這個不僅適用於我們的經濟社會發展,也適用於語言的出現和發展。

2.1. 意識是自然的主觀映像

自然,可以粗暴地理解為整個宇宙,文雅的叫法是客觀世界。我們人類有一定的能力,可以觀察、記憶甚至解釋一些事物——結果就是我們的大腦中儲存了這些事物的外貌、溫度等等資訊,就是我們的意識,也叫做主觀映像。當然,我們還有利用事物的意識、改造事物的意識等等。

比如說,我們的祖先遭遇如圖2-1所示的巨大物體後,一定會害怕、擔心被乾掉,這時候祖先就得記住這個東西、下次遇到要快速響應。

圖2‑1 現代人叫亞洲象

2.2. 語言是表達意識的工具

很久很久以前,動物們用聲音、圖形、動態影象等等原始訊號來表示主觀映像。聽著聲音,祖先們就可以判斷腳下的樹枝是不是要被壓斷了;看看同伴的眼神,就知道他是不是要給你撓頭;聞聞氣味,就知道小寶寶是不是又拉了。從上帝視角來看,這種方案有乙個重大缺陷:

可以支援個體思考,但是無法支援同伴之間的快速交流。如果同伴之間不能傳遞資訊,就無法傳遞歷經艱險得到的知識。

不知道的自然選擇的結果,還是祖先們有意識決定的,後來,祖先們開始主要用嘴、喉嚨發出的聲音來傳遞資訊,比如(扯淡)用乙個音素「wen」代表蜜蜂、同伴說這個就得趕緊跑。聲音這種資訊載體有乙個特點,就是解放了四肢,允許大家一邊跑一邊叫。使用聲音溝通時,祖先們可以進行帶有「即時戰略」特點的活動,比如在不影響逃跑速度的情況下告訴同伴們逃跑隊形和集合地點。

事後諸葛亮一下:使用聲音溝通,提公升了生產力,是生物挑選資訊交流方式程序的最佳結果。

不知道是自然選擇的導致的,還是祖先們勤加練習的結果,後來,祖先們可以發出越來越多的聲音,以滿足越來越強的認知能力所帶來的越來越大的表達需求。這一時期,祖先們還發現,一段聲音和另一段聲音可以組合,形成一段更長的聲音、表示另一種意思——這樣,他們就可以用非常少的聲音素材,描述非常多的事物。舉例來說,如果我們可以發n種聲音,一段包含k個音素的聲音,可以表示種事物(要是加上我們現在使用的音調機制,那就更多了)。

用於表示乙個事物的音素組合,就是後人稱為「詞語」的東西。

不知道是自然選擇的導致的,還是祖先們有約定的結果,後來,祖先們把詞語搭配的形式和規則固定下來,形成了我們現在稱為語法的東西。語法的存在,讓語言更有規律,編碼、解碼和學習的成本更低,更有利於大家的交流,也就能進一步提公升祖先們的生產力。到這個時候,祖先們稱得上是文武雙全、天下無敵,可以用複雜的隊形和策略去狩獵,如圖2-2。

圖2‑2 某地岩畫

在自然選擇的作用下、在祖先們的個人奮鬥下,語言和我們的意識相互依存、相互促進,發展成了今天這個樣子。

2.3. 口語是語言的天然存在形式

如前所述,聲音這種資訊載體,由於相對於影象等有著巨大的優勢,最終成為我們交流資訊的主要形式。對應地,我們的主要通過口語來進行溝通活動。因此,口語成為語言的天然存在形式。

2.4. 書面語是提公升意識、語言傳播能力的工具

當然,相比聲音,影象形式的資訊也有獨特的優勢:可以跨越時間和空間進行傳播。石頭上的刻痕、木棍上的繩結,可以把資訊傳遞給子子孫孫或者遠在天邊的另外乙個部落。

單憑聲音,祖先們無法做到這一點——聲音轉瞬即逝,編碼、解碼容易出錯,個體壽命有限等等,都限制了以口語形式存在的資訊。於是,祖先們利用各種方案表示語言,包括在石頭上畫畫、繩子打結、種樹等等。在使用這些方案的過程中,圖形這種形式,由於生成和理解比較便捷,逐漸勝出、成為主流的語言表示方案,並逐漸發展成象形文本。

文字的出現,很好的解決了社群規模越來越大的情況下,資訊交流的迫切需求,進一步提公升了祖先們的生存和生產能力。

3. 語言和文字的若干特點

對現代人來說,語言和文字是密不可分的,二者都是用來對客觀世界進行編碼的符號體系。語言用聲音來編碼意識,而文字通過編碼語言來編碼意識。

3.1. 語言是一套離散的編碼系統

語言是一套離散的系統,我們用以對客觀世界進行盡量近似的刻畫。聲音、影象等原始訊號是連續的,可以非常精準地反映實際情況,而語言只能用「幫」「真棒」這樣的離散取值來描述世界。

另外,由於能力所限,我們只能用語言描述客觀世界的一小部分。因此,語言所記錄的,是對客觀世界原始特徵進行取樣和編碼的結果。理論上,句子是可以無限長的,因此可以表達非常非常精確的意思。

因此,語言與現實世界的關係,有點像我們對函式的多項式操作時,多項式與函式的關係。

3.2. 語言符號的層級性

「我是中國人」這句話,有多個層級。兩個或者多個詞語構成片語;多個片語構成短語;多個短語又構成了句子。因此,句子的結構具有層次性。

圖3‑1 句子的結構

我們在做文字理解或資訊抽取的時候,可以根據場景的特點擊擇合適的粒度。

3.3. 規則可以描述大部分語言現象

詞語的搭配、短語的組合等等,大部分可以用類似「主+謂+賓」的規則來描述。我們寫一些正規表示式就可以解析或者生成合法的句子。但是,總有一些語言現象不符合主流規則,比如「我們要自衛」這句話,按照現在主流的語序應該是「我們要衛自」。

「自x」這種句式是古漢語的語法在現代漢語中的留存。現代漢語中不符合主流句法的現象還有很多。

語法和語義共同決定了乙個句子的形態。因此,我們在解析句子或者生成句子的時候,既要考慮句法的合理性,又要考慮語義的合理性。比如說,「十獒創世紀」這句話,語法上沒啥毛病,不過因為不符合事實(我就不來批判了),仍然是乙個非法的句子。

因此,我們在對語言建模的時候,實際上需要把客觀世界的相關知識融合進來,才能更好地刻畫語言。

語法和語義共同制約的存在,決定了句子中所有的元素兩兩之間,多多少少存在一定的聯絡。注意力機制特別適合用來刻畫這種複雜關係,也催生了transformer、bert、gpt等經典的語言模型。

圖3‑2 獒吹經典口號

3.4. 語言和文字的關係

文字是語言的編碼,可以看做是語言的圖形化版本。

我們使用文字對語言編碼,進而實現對意識的編碼,最終實現意識跨越時間和空間的傳播。老子、孫子等人的意識片段,通過文字一直流傳到了今天,不斷地在後人的腦海裡活躍著。

當然,文字在發展的過程中,逐漸出現了相對語言的獨立性,比如中國人創造了書法這種藝術形式。古人在傳承和學習文化典籍的時候,為了讓後人也能看懂,規定書面語的語法不能變。結果隨著時間的推移,人們的口語與書面語區別越來越大、學習古文的代價也越來越高。

到了鴉片戰爭以後,人們終於不得不求變,廢掉古文、提倡白話文。這時候,書面語又跟上了口語的腳步。

通常來說,nlp任務的直接處理物件是包含了文字的文字片段,毫無疑問,裡面蘊含了人們的意圖、情感等等。我們用詞袋模型、詞嵌入向量等等,刻畫的不是那個字串,而是文字所代表的意圖和情感。

3.5. 表意文字和表音文字的關係

祖先們把圖畫發展成了象形文本,比如我國商朝時期的甲骨文、古蘇美爾人創造的楔形文字等兩河流域並傳到今天、形成各種表意文字,比如成熟期的漢字、楔形文字。

由於漢語文化圈後來在所在地區一直是文化、生產力等方面的先進代表,文化的載體——漢語和漢字受到了統治者們的推崇,並被秦始皇等人定為國家標準語言,傳承至今。

隨著詞彙規模的擴大,人們逐漸發現掌握語言變得越來越困難。一些民族為了減少或控制文字元號的數量,採用了一種新的策略,即用文字元號表示讀音。這類語言的文字被成為表音文字,代表是英語。

表音文字的特點是字元數量較少、易於學習,有利於語言的推廣。

我們曾經試圖將漢字拉丁化,以降低漢語的學習難度、盡快提公升廣大人民的文化水平。不過呢,共產黨比較給力,通過推廣簡體字,很好的完成了掃盲任務。以王選為代表的科學家們,也用科學技術維護了漢字的生存空間。

而拉丁版的中文就成了我們現在的拼音,用來記錄和表達漢字的標準讀音。

表意文字和表音文字各有所長,可見的未來裡,都將繼續存在。

4. 語言會變化

語言的變化是持續發生的,因此,我們的nlp系統需要經常進行相應的更新。

4.1. 語言變化的動力

語言出現和發展的根本動力,是我們為了獲得生存優勢,在一定成本下盡量多地傳遞資訊的本能和意識。這也是我們提公升生產力的需要。

語言發生變化的動力或者說原因非常多:

(1)先人們在生存和生產的過程中,不可避免會與其他群體發生接觸,或多或少會進行交流(當然交流友好程度的取值範圍是[和平,戰爭])。交流就意味著思維方式、表達方式等等方面的相互學習,就會導致語言的變化。我在邊疆

2樓:雨貝

語言學概論

第一章 語言和語言學

第一節 認識人類的語言

一、 只有人類才有語言(領會)(多選)

(一) 人類語言與其他動物鳴叫系統的區別:

1、 內容更多。

2、 用處更大。

3、 能夠創造。

(二) 人類具有語言能力,是人類跟其他動物區別的最重要的標誌。(單選)

二、 語言和民族、國家之間的關係(領會)(單選)(論述)

(一) 語言不但是最直觀和最易識別的民族標誌,同時還是國家的標誌。

(二) 語言和民族、語言和國家之間存在著複雜的關係。(為什麼漢語中吳語、粵語、閩語相互聽不懂但仍屬於漢語)(綜合應用)

1、 乙個民族使用一種語言。

2、 西方學者把「相互能夠聽懂」作為確定語言的標準。這種標準對於歷史悠久、幅員遼闊的國家則不適用。

3、 「語言」和「民族」之間、「民族」和「國家」之間錯綜複雜的情況,才有做出更加符合客觀事實的結論。

三、 語言特點與語言型別(說明不同型別語言的主要特點)(簡單應用)

(一) 語言的譜系分類(領會)(名詞解釋)

1、 語言譜系分類:從語言「歷時」狀態角度來劃分,根據各種語言在語音、語彙、語法等方面是否有共同的**和相似性的大小對語言進行的分類。

2、 了解怎樣區別不同的語言和不同的方言(領會)(單選)(多選):

(1) 譜系層次:語系—語族—(語支)—語言—方言—次方言(土語)

(2) 語系(識記):屬於同乙個語系的語言都有古老的共同**。其中印歐語系和漢藏語系是兩個最大的語系。

(3) 語族(識記):同一語族的語言不但有相同的**,相似點也更多。

(二) 語言的形態分類(領會)

1、 語言形態分類(名詞解釋):從語言「共時」狀態角度來劃分不同的語言,其中一種主要的分類結果就是把人類語言分成「形態語」和「孤立語」,或者分成「綜合性語言」和「分析性語言」。

2、 「形態語」和「綜合性語言」(識記)(名詞解釋):通過詞的形態變化來體現各種結構意義的語言。

(1) 屈折語(識記)(名詞解釋):主要是句子中某些詞本身有豐富的形態變化,典型的如德語、俄語。

(2) 黏著語(識記)(名詞解釋):主要是句子中某些詞的形態變化表現為在詞的前後附有詞綴,典型的如維吾爾語、日語。

3、 孤立語」和「分析性語言」(識記)(單選)(名詞解釋):屬於沒有形態變化的語言,如漢語。

四、 語言和言語

(一) 語言和言語的概念(單選)(名詞解釋)

1、 言語:言語動作和言語作品,又可以統稱為「言語」。

2、 語言:說話時使用的符號工具。

(二) 語言和言語的關係:(領會)(易考)(單選)(簡答)

1、 「語言」是更重要的,至少是決定「言語」的。

2、 「言語」又是更現實的,至少是比「語言」更容易直接觀察到的

中國古代的輝煌歷史,中國古代的輝煌歷史 5

秦始皇 公元前259 前210年 和他的帝國 公元前221年,秦始皇嬴政結束了長達250多年諸侯紛爭的戰國時期,建立了中國歷史上第一個統一的 集權的多民族封建國家 秦。秦始皇統一了文字,統一了度量衡,統一了貨幣,建立了郡縣制度。由他奠定的封建國家框架在以後的2000多年中一直被人們延用著。他在十幾年...

古代禮儀問題,中國古代禮儀

每個朝代都不同,你所指的古代是大概在什麼時段 跪拜禮,初年被孫中山先生廢除!中國古代禮儀 關於古代禮儀 歷史中是要下跪的。關於這點在電視劇集小魚兒和花無缺有體現。淑妃省親,慕容無敵跪拜女兒 需要的,這是君臣之禮。禮儀即禮節與儀式。中國古代有 五禮 之說,祭祀之事為吉禮,冠婚之事為嘉禮,賓客之事為賓禮...

中西古代雕塑的不同,中國古代雕塑與西方雕塑的異同點

樓上的,你敢把出處掛出來嗎?抄的就抄的,你有自己的見解嗎?樓上的摘抄的很詳細,不過,依我個人而言,有些觀點我還是不敢苟同的.雕塑的產生早在原始社會就有了,甚至更早,當然更早的就無從考證了.社會中的雕塑,是受社會自然形態的影響,受人們思想侷限性的影響,從而造成了原始雕塑的一種對於神靈的敬畏以及對自然的...