python 詞云,python 詞云_python詞云-數據產品崗位描述的詞云

 2023-10-05 阅读 24 评论 0

摘要:目的:對于數據產品崗位,需要什么樣的技能才能勝任,針對這個小問題,爬取了boss直聘的崗位描述,進行詞頻統計,并畫出詞云,來看看到底數據產品需要什么樣的技能。最重要用到的python的庫是jieba,具體代碼如下:im

目的:

對于數據產品崗位,需要什么樣的技能才能勝任,針對這個小問題,爬取了boss直聘的崗位描述,進行詞頻統計,并畫出詞云,來看看到底數據產品需要什么樣的技能。最重要用到的python的庫是jieba,具體代碼如下:

import re
import collections
import numpy as np
import jieba
import wordcloud
from PIL import Image
import matplotlib.pyplot as pltfn =open("/Users/ouer/Downloads/boss關鍵詞提取.txt")
string_data = fn.read()
fn.close()

文本預處理

#文本預處理
pattern =re.compile(u't|n|.|-|一|:|;|)|(|?|"')  # 建立正則表達式匹配模式
string_data = re.sub(pattern,'',string_data)# 將符合模式的字符串替換掉

文本分詞并建立停用詞詞庫

#文本分詞
seg_list_exact = jieba.cut(string_data, cut_all=False)  # 精確模式分詞[默認模式]
object_list = []  # 建立空列表用于存儲分詞結果
remove_words = [u'的', u',',u'、',u';',  u'的', u'產品', u'和', u'是', u'隨著', u'對于', ' ', u'對', u'等', u'能', u'都', u'。',u'能夠',u'、', u'中', u'與', u'在', u'其', u'了', u'可以', u'進行', u'有', u'更', u'需要', u'提供',u'2',u'1',u'需求',u'及',u'分析',u'工作',u'4',u'2',u'5',u'大',u':',u'相關',u'多', u'能力', u'通過', u'會', u'參與', u'一個', u'熟練', u'工作經驗', u'將', u'并',u'以上',u'良好',u'年',u'者',u'或',u'/',u'完成',u'以上學歷',u'較強',u'強',u'具備',u'同時', u'隨著', u'如果', u'但', u'掌握', u'非常', u'—', u'如何', u'包括', u'負責',u'了解',u'建立',u'優先',u'深刻',u'理解',u'數據',u'和',u'有',u'業務',u'經驗',u'3'] 
#remove_words = []
for word in seg_list_exact: # 迭代讀出每個分詞對象if word not in remove_words:object_list.append(word)

詞頻統計

#詞頻統計
word_counts = collections.Counter(object_list)
word_counts_top5 = word_counts.most_common(10)
for w,c in word_counts_top5:print(w,c)

9f220ece48ce17884603508dc6064ca7.png

python 詞云,詞云展示

# 詞頻展示
mask = np.array(Image.open('/Users/ouer/Downloads/timg.jpeg'))  # 定義詞頻背景
wc = wordcloud.WordCloud(font_path='/Library/Fonts/Songti.ttc',  # 設置字體格式,不設置將無法顯示中文mask=mask,  # 設置背景圖max_words=200,  # 設置最大顯示的詞數max_font_size=100  # 設置字體最大值
)
wc.generate_from_frequencies(word_counts)  # 從字典生成詞云
image_colors = wordcloud.ImageColorGenerator(mask)  # 從背景圖建立顏色方案
wc.recolor(color_func=image_colors)  # 將詞云顏色設置為背景圖方案
plt.imshow(wc)  # 顯示詞云
plt.axis('off')  # 關閉坐標軸
plt.show()  # 顯示圖像

d9ab7c348dc910846f8ea5128223d134.png
小豬佩琦版詞云

結論

根據boss上對崗位詞頻統計和詞云展示,結合實際的崗位描述,數據產品需要的能力包括

1、平臺產品的設計與規劃能力,即平臺產品設計能力;

2、良好的團隊協作和溝通能力;

3、數據分析能力;

Python數據分析,4、項目運營和執行能力;

版权声明:本站所有资料均为网友推荐收集整理而来,仅供学习和研究交流使用。

原文链接:https://hbdhgg.com/5/114105.html

发表评论:

本站为非赢利网站,部分文章来源或改编自互联网及其他公众平台,主要目的在于分享信息,版权归原作者所有,内容仅供读者参考,如有侵权请联系我们删除!

Copyright © 2022 匯編語言學習筆記 Inc. 保留所有权利。

底部版权信息