對于數據產品崗位,需要什么樣的技能才能勝任,針對這個小問題,爬取了boss直聘的崗位描述,進行詞頻統計,并畫出詞云,來看看到底數據產品需要什么樣的技能。最重要用到的python的庫是jieba,具體代碼如下:
import re
import collections
import numpy as np
import jieba
import wordcloud
from PIL import Image
import matplotlib.pyplot as pltfn =open("/Users/ouer/Downloads/boss關鍵詞提取.txt")
string_data = fn.read()
fn.close()
文本預處理
#文本預處理
pattern =re.compile(u't|n|.|-|一|:|;|)|(|?|"') # 建立正則表達式匹配模式
string_data = re.sub(pattern,'',string_data)# 將符合模式的字符串替換掉
文本分詞并建立停用詞詞庫
#文本分詞
seg_list_exact = jieba.cut(string_data, cut_all=False) # 精確模式分詞[默認模式]
object_list = [] # 建立空列表用于存儲分詞結果
remove_words = [u'的', u',',u'、',u';', u'的', u'產品', u'和', u'是', u'隨著', u'對于', ' ', u'對', u'等', u'能', u'都', u'。',u'能夠',u'、', u'中', u'與', u'在', u'其', u'了', u'可以', u'進行', u'有', u'更', u'需要', u'提供',u'2',u'1',u'需求',u'及',u'分析',u'工作',u'4',u'2',u'5',u'大',u':',u'相關',u'多', u'能力', u'通過', u'會', u'參與', u'一個', u'熟練', u'工作經驗', u'將', u'并',u'以上',u'良好',u'年',u'者',u'或',u'/',u'完成',u'以上學歷',u'較強',u'強',u'具備',u'同時', u'隨著', u'如果', u'但', u'掌握', u'非常', u'—', u'如何', u'包括', u'負責',u'了解',u'建立',u'優先',u'深刻',u'理解',u'數據',u'和',u'有',u'業務',u'經驗',u'3']
#remove_words = []
for word in seg_list_exact: # 迭代讀出每個分詞對象if word not in remove_words:object_list.append(word)
詞頻統計
#詞頻統計
word_counts = collections.Counter(object_list)
word_counts_top5 = word_counts.most_common(10)
for w,c in word_counts_top5:print(w,c)
python 詞云,詞云展示
# 詞頻展示
mask = np.array(Image.open('/Users/ouer/Downloads/timg.jpeg')) # 定義詞頻背景
wc = wordcloud.WordCloud(font_path='/Library/Fonts/Songti.ttc', # 設置字體格式,不設置將無法顯示中文mask=mask, # 設置背景圖max_words=200, # 設置最大顯示的詞數max_font_size=100 # 設置字體最大值
)
wc.generate_from_frequencies(word_counts) # 從字典生成詞云
image_colors = wordcloud.ImageColorGenerator(mask) # 從背景圖建立顏色方案
wc.recolor(color_func=image_colors) # 將詞云顏色設置為背景圖方案
plt.imshow(wc) # 顯示詞云
plt.axis('off') # 關閉坐標軸
plt.show() # 顯示圖像
根據boss上對崗位詞頻統計和詞云展示,結合實際的崗位描述,數據產品需要的能力包括
1、平臺產品的設計與規劃能力,即平臺產品設計能力;
2、良好的團隊協作和溝通能力;
3、數據分析能力;
Python數據分析,4、項目運營和執行能力;
版权声明:本站所有资料均为网友推荐收集整理而来,仅供学习和研究交流使用。
工作时间:8:00-18:00
客服电话
电子邮件
admin@qq.com
扫码二维码
获取最新动态