千鋒教育-做有情懷、有良心、有品質(zhì)的職業(yè)教育機構(gòu)

手機站

千鋒學習站 | 隨時隨地免費學

掃一掃進入千鋒手機站

領(lǐng)取全套視頻

關(guān)注千鋒學習站小程序
隨時隨地免費學習課程

當前位置：首頁 > 技術(shù)干貨 > Python實現(xiàn)文章自動生成

Python實現(xiàn)文章自動生成

來源：千鋒教育

發(fā)布人：xqq

時間： 2023-11-06 23:13:31 1699283611

下面的Python程序?qū)崿F(xiàn)了通過從網(wǎng)頁抓取一篇文章，然后根據(jù)這篇文章來生成新的文章，這其中的原理就是基于概率統(tǒng)計的文本分析。

過程大概就是網(wǎng)頁抓取數(shù)據(jù)->統(tǒng)計分析->生成新文章。網(wǎng)頁抓取數(shù)據(jù)是通過BeautifulSoup庫來抓取網(wǎng)頁上的文本內(nèi)容。統(tǒng)計分析這個首先需要使用ngram模型來把文章進行分詞并統(tǒng)計頻率。因為文章生成主要依據(jù)馬爾可夫模型，所以使用了2-gram，這樣可以統(tǒng)計出一個單詞出現(xiàn)在另一個單詞后的概率。生成新文章是基于分析大量隨機事件的馬爾可夫模型。隨機事件的特點是在一個離散事件發(fā)生之后，另一個離散事件將在前一個事件的條件下以一定的概率發(fā)生。

fromurllib.requestimporturlopen

fromrandomimportrandint

frombs4importBeautifulSoup

importre

defwordListSum(wordList):

sum=0

forword,valueinwordList.items():

sum=sum+value

returnsum

defretrieveRandomWord(wordList):

randomIndex=randint(1,wordListSum(wordList))

forword,valueinwordList.items():

randomIndex-=value

ifrandomIndex<=0:

returnword

defbuildWordDict(text):

text=re.sub('(\n|\r|\t)+',"",text)

text=re.sub('\"',"",text)

punctuation=[',','.',';',':']

forsymbolinpunctuation:

text=text.replace(symbol,""+symbol+"")

words=text.split('')

words=[wordforwordinwordsifword!=""]

wordDict={}

foriinrange(1,len(words)):

ifwords[i-1]notinwordDict:

wordDict[words[i-1]]={}

ifwords[i]notinwordDict[words[i-1]]:

wordDict[words[i-1]][words[i]]=0

wordDict[words[i-1]][words[i]]=wordDict[words[i-1]][words[i]]+1

returnwordDict

defrandomFirstWord(wordDict):

randomIndex=randint(0,len(wordDict))

returnlist(wordDict.keys())[randomIndex]

html=urlopen("http://www.guancha.cn/america/2017_01_21_390488_s.shtml")

bsObj=BeautifulSoup(html,"lxml")

ps=bsObj.find("div",{"id":"cmtdiv3523349"}).find_next_siblings("p");

content=""

forpinps:

content=content+p.get_text()

text=bytes(content,"UTF-8")

text=text.decode("ascii","ignore")

wordDict=buildWordDict(text)

length=100

chain=""

currentWord=randomFirstWord(wordDict)

foriinrange(0,length):

chain+=currentWord+""

currentWord=retrieveRandomWord(wordDict[currentWord])

print(chain)

buildWordDict(text)函數(shù)接收文本內(nèi)容，生成的內(nèi)容如下

{‘itself’:{‘,’:1},‘night’:{‘sky’:1},‘You’:{‘came’:1,‘will’:1},‘railways’:{‘a(chǎn)ll’:1},‘government’:{‘while’:1,‘,’:1,‘is’:1},‘you’:{‘now’:1,‘open’:1,‘down’:1,‘with’:1,‘.’:6,‘,’:1,‘that’:1},

主要就是生成一個字典，鍵是文章中所有出現(xiàn)的詞語，值其實也是一個字典，這個字典是所有直接出現(xiàn)在鍵后邊的詞語及其出現(xiàn)的頻率。這個函數(shù)就是ngram模型思想的運用。

retrieveRandomWord(wordList)函數(shù)的wordList代表的是出現(xiàn)在上一個詞語后的詞語列表及其頻率組成的字典，然后根據(jù)統(tǒng)計的概率隨機生成一個詞。這個函數(shù)是馬爾可夫模型的思想運用。

然后運行這個程序會生成一個長度為100的文章，如下面所示

fail.Wewillstirourselves,butwewillneverbefore.Donotshareoneheartandpleasantitbackourjobs.Weareinfusedwiththeorderlyandrailwaysallofthegangsandrobbedourjobsfortheirsuccesswilldeterminethecivilizedworld.Wewilltheirsuccesswillbeagreatmenandhighwaysandmillionstoallbleedtheworld.Itbelongstogreatnationalefforttodefendourproducts,constantlycomplaining,D.Wewillbeignoredagain.ItbelongstoharnesstheexpenseofAmerica.

生成的文章看起來語法混亂，這也難怪，因為只是抓取分析統(tǒng)計了一篇的文章。我想如果可以抓取足夠多的英文文章，數(shù)據(jù)集足夠大那么語法準確度會大大提高。

以上內(nèi)容為大家介紹了Python實現(xiàn)文章自動生成，希望對大家有所幫助，如果想要了解更多Python相關(guān)知識，請關(guān)注 IT培訓機構(gòu):千鋒教育。http://m.2667701.com/

tags: python培訓

聲明：本站稿件版權(quán)均屬千鋒教育所有，未經(jīng)許可不得擅自轉(zhuǎn)載。

10年以上業(yè)內(nèi)強師集結(jié)，手把手帶你蛻變精英

請您保持通訊暢通，專屬學習老師24小時內(nèi)將與您1V1溝通

免費領(lǐng)取

今日已有369人領(lǐng)取成功

劉同學 138****2860 剛剛成功領(lǐng)取

王同學 131****2015 剛剛成功領(lǐng)取

張同學 133****4652 剛剛成功領(lǐng)取

李同學 135****8607 剛剛成功領(lǐng)取

楊同學 132****5667 剛剛成功領(lǐng)取

岳同學 134****6652 剛剛成功領(lǐng)取

梁同學 157****2950 剛剛成功領(lǐng)取

劉同學 189****1015 剛剛成功領(lǐng)取

張同學 155****4678 剛剛成功領(lǐng)取

鄒同學 139****2907 剛剛成功領(lǐng)取

董同學 138****2867 剛剛成功領(lǐng)取

周同學 136****3602 剛剛成功領(lǐng)取

如何學好Python

Python OpenCV 的知識體系

免費打包獲取

相關(guān)推薦HOT

Python中的'==' 和 'is'

==和is是Python對象比較中常用的兩種方式，==比較對象的值是否相等，is比較對象的身份標識(ID)是否相等，是否是同一個對象，是否指向同一個內(nèi)存...詳情>>

2023-11-06 23:38:43

Python內(nèi)存分配

一、前言大多數(shù)編譯型語言，變量在使用前必須先聲明，其中C語言更加苛刻：變量聲明必須位于代碼塊最開始，且在任何其他語句之前。其他語言，想C...詳情>>

2023-11-06 22:33:55

Python 腳本自啟動及定時任務(wù)

讓Python隨Linux開機自動運行1、準備好要自啟的腳本auto.py2、用root權(quán)限編輯以下文件sudovim/ect/rc.local3、在exit0上面編輯啟動腳本的命令/u...詳情>>

2023-11-06 21:57:55

python字符串處理相關(guān)函數(shù)

python中字符串中字符大小寫的變換：*S.lower()#小寫*S.upper()#大寫*S.swapcase()#大小寫互換*S.capitalize()#首字母大寫*String.capwor詳情>>

2023-11-06 21:54:19

如何在Linux中運行Python源文件

一?？蓤?zhí)行的Python程序這部分內(nèi)容只對Linux/Unix用戶適用，不過Windows用戶可能也對程序的第一行比較好奇。首先我們需要通過chmod命令，給程序...詳情>>

2023-11-06 21:50:43

久久精品国产亚洲高清|精品日韩中文乱码在线|亚洲va中文字幕无码久|伊人久久综合狼伊人久久|亚洲不卡av不卡一区二区|精品久久久久久久蜜臀AV|国产精品19久久久久久不卡|国产男女猛烈视频在线观看麻豆

Python實現(xiàn)文章自動生成