如何用python中的nltk對中文進行分析和處理

2021-03-03 23:01:05 字數 1102 閱讀 4567

1樓:育知同創教育

一、nltk進行分

詞用到的函式:

nltk.sent_tokenize(text) #對文字按照句子進行分割

nltk.word_tokenize(sent) #對句子進行分詞

二、版nltk進行詞性標註

用到的函權數:

nltk.pos_tag(tokens)#tokens是句子分詞後的結果,同樣是句子級的標註

三、nltk進行命名實體識別(ner)

用到的函式:

nltk.ne_chunk(tags)#tags是句子詞性標註後的結果,同樣是句子級

上例中,有兩個命名實體,乙個是xi,這個應該是per,被錯誤識別為gpe了; 另乙個事china,被正確識別為gpe。

四、句法分析

nltk沒有好的parser,推薦使用stanfordparser

但是nltk有很好的樹類,該類用list實現

可以利用stanfordparser的輸出構建一棵python的句法樹

如何使用python做中文情感分析

2樓:騰訊電腦管家

pip install snownlppip install -u

textblobpython -m textblob.download_corpora

如何用python對文章中文分詞並統計詞頻

3樓:育知同創教育

1、全域性變數在函式中bai使用時du需要加入global宣告

2、獲zhi取網頁內容存入檔案時的編dao碼為ascii進行回正則匹配時需要decode為gb2312,當匹答

配到的中文寫入檔案時需要encode成gb2312寫入檔案。

3、中文字元匹配過濾正規表示式為ur'[\u4e00-\u9fa5]+',使用findall找到所有的中文字元存入分組

4、key,value值可以使用dict儲存,排序後可以使用list儲存

5、字串處理使用split分割,然後使用index擷取字串,判斷哪些是名詞和動詞

6、命令列使用需要匯入os,os.system(cmd)

如何用python從wind中批量匯出資料

網頁鏈結 哦,這裡面有乙個各種萬德外掛程式python的函式的說明有一些什麼資料集函式,你可以試一下有一些例子。匯出時請按如下步驟操作 1 開啟要匯出的財務軟體,比如資產負債表 2 點開選單 編輯 全選 點開選單 編輯 清除 清除公式 3 點開選單 檔案 輸出檔案 輸出excel檔案 輸入匯出後的檔...

如何用Python做爬蟲

在我們日常上網瀏覽網 我們最常規的做法就是通過滑鼠右鍵,選擇另存為。但有些 滑鼠右鍵的時候並沒有另存為選項,還有辦法就通過就是通過截圖工具擷取下來,但這樣就降低 的清晰度。好吧其實你很厲害的,右鍵檢視頁面源 我們可以通過python 來實現這樣乙個簡單的爬蟲功能,把我們想要的 爬取到本地。下面就看看...

如何用python獲得當前時間的秒數

import datetime now datetime.datetime.now print now.second now裡面有其所有日期和時間的屬性 now.second獲得的是int型 import time print time.time python 如何獲取 秒級別的時間 123impo...