DV102 AI大數據分析
Python餐飲趨勢分析
因應市場需求,針對王品集團、瓦城泰統,兩大集團的分析
GoogleMap、Dcard、ETTODAY、PTT
清理無用值、貼圖、空值,並且新增ID欄位,例如:餐廳名稱,資料來源
將時間改成標準timestamp形式,以月份與季節為單位,分析各月份及各季節的總聲量
使用Tableau、Qlick平台,以及Python matplotlib模組
利用PyMySQL模組或者pandas tosql函式將整理好的dataframe匯入MySQL
使用AWS雲端平台建置EC2,將MySQL server架設在EC2,並且用Flask連結到EC2的Localhost
使用Python Flask模組將網頁前端的POST載回Python並連接資料庫,接著用route的方式把Python運算結果傳回前端
Googlemap 是現代人常拿來做為美食地圖的好工具,上面
的評論往往能夠反映出餐廳最真實的樣貌,當然在分析資料
時,我們也會將評論區裡面無用的資料刪除,例如沒有評價
只有給星星的留言,以及明顯是洗評價的留言,以增加資料
的準確性以及可用性。
是台灣的社群網路服務網站,開放給臺灣與國外部分大學學
生註冊,上面的很多文章很多都是徵集網友的意見,尤其是
Dcard的網站設計,將許多不同的討論主題分類分的鉅細靡
,使用上面的美食版來尋找餐廳的聲量,是非常適合的資料
來源,在很多新創討論網站中,它儼然已經佔有一席之地
PTT是以提供個人板以及團體等私人性質為主的看板服務,
從1995年就已經被創立,其中經歷許多改革卻仍歷久不衰,
許多網友在蒐集資訊方面皆會在此看板上面發問以尋求解答
對於餐廳意見的蒐集,雖然資料並非非常新或完整,但在許
多網友眼裡,仍然是參考價值極高的一個網站。
東森新聞雲是整合新聞、資訊、知識和娛樂的訊息大平台,
,在眾多新聞媒體之中,它的立場非常中立,在娛樂新聞方
面也表現亮眼,許多廠商皆會在他們的網站上下非常多廣告
將其發布新聞的數量當成聲量統計的來源,是個不錯的選擇
服務-正面評價多次提及服務,代表消費者在餐廳用餐時很重視服務態度opcityoooooooooooooooooooooooooooooooo
環境-留言提及氣氛、環境、伴侶次數較高,推測店內環境好可被列入適合約會餐廳
服務-服務提及次數沒有特別多,表示相較於服務,消費者更注重其他重點
環境-留言提及冰淇淋、自助吧,推測消費者會因有自助吧而到餐廳消費
外送服務-外帶、外送,提及次數高,推測因近兩年受疫情影響,消費者對於這項服務需求提高
王品正面聲量-服務好、用餐環境佳、好吃、慶生活動多
王品負面聲量-難定位、候位較久
瓦城正面聲量-食物、食材、口味佳
瓦城負面聲量-口味太重、難訂位
資料源的收集會有 資料太舊,資料量不夠,資訊太雜(圖文不符)、洗評論的問題。
PTT、Dcard兩大論壇的美食版,可以先篩選掉不符合的文章,googlemap評論最直接也最貼近餐廳,
但會有餐廳辦活動促銷的評論收集時透過程式碼先拿掉,ettoday許多企業皆會在他們的網站上下廣告,將其發布新聞的數量當成聲量統計的來源。
googlemap 、Dcard會有表情符號問題,須清洗後再放進資料庫,我們用python emoji、re模組 清洗。
每個網站抓下來的呈現方式都不同我們需要整理成一致的格式再放進資料庫,舉例:PTT : Thu Jun 2 18:07:01 2022,
Dcard:美食 6月2日 14:38 (今年的文章就不會有年份),可用 re找到數字、split將數字切開取需要的值、join合併一起、calendar模組 將月份轉換成需要的形式。
DV102 AI大數據
甚麼都會甚麼都不奇怪,除了是selenium大師之外,AWS、MySQL樣樣都精通,唯一的缺點就是長得太帥,眾多優點之一就是缺點只有一個
Pandas、Numpy、emoji,每樣模組都用得淋漓盡致,資料清洗的去蕪存菁比家裡廁所地板乾淨。
Tableau、Qlik、PowerBI、Oracle每樣資料視覺化平台都瞭若指掌,平均拉一張圖只需要一根手指頭,只有你沒想到的圖,沒有畫不出來的圖
抱大腿大神,專長複製貼上,名言:萬事起頭難,只要會複製。只要鍵盤有CTRL、C、V,甚麼程式碼都會寫,
Copyright © 2022 - DV102
Template by OS Templates