DV102 AI大數據分析

Python餐飲趨勢分析

因應市場需求,針對王品集團、瓦城泰統,兩大集團的分析

  • 主題介紹

    基於餐飲集團的市場需求,藉由各媒體與網站內龐大的資訊量,透過爬蟲技術獲取資訊並且進行分析

  • 任務分工

    團隊合作必續進行不同的技術分工,包含資料蒐集、資料清理、資料分析、分析結果視覺化呈現,以及API製作

  • 工作時程

    藉由紀錄各項分工的工作時程,達到專案在有限的時間之內,獲得最大的收穫

  • 資料源介紹、資料蒐集規劃

    網路媒體、社群網站、平台的評價以及評論,藉由大量的資料蒐集與分析,達到看出市場的需求的結果

  • 分析結果說明

    使用python做出的分析結果,利用各個視覺化平台,以別於傳統文字形呈現的圖表呈現

  • 碰到困難與如何解決

    專案進行必然會碰到許多難題,可能不僅是技術上的問題,還可能包含時間分配以及其他分析方向的問題

主題介紹

  • 王品集團
  • 牛排料理-王品牛排

    鐵板燒-夏慕尼

    日式套餐-陶板屋

    鍋物-石二鍋

    燒肉-原燒


  • 瓦城集團
  • 泰式料理-瓦城、非常泰、大心

    湘菜-1010湘

    中式料理-時時香


  • 分析內容
  • 分析王品集團與瓦城集團的聲量以及評價



任務分工

  • 資料收集
  • GoogleMap、Dcard、ETTODAY、PTT


  • 資料清理
  • 清理無用值、貼圖、空值,並且新增ID欄位,例如:餐廳名稱,資料來源


  • 資料分析
  • 將時間改成標準timestamp形式,以月份與季節為單位,分析各月份及各季節的總聲量


  • 資料視覺化呈現
  • 使用Tableau、Qlick平台,以及Python matplotlib模組


  • 資料庫工程
  • 利用PyMySQL模組或者pandas tosql函式將整理好的dataframe匯入MySQL


  • 雲端aws架設
  • 使用AWS雲端平台建置EC2,將MySQL server架設在EC2,並且用Flask連結到EC2的Localhost


  • 串接API
  • 使用Python Flask模組將網頁前端的POST載回Python並連接資料庫,接著用route的方式把Python運算結果傳回前端


工作時程

  • 第一周
  • 定義收集內容,並進行資料源數據收集


  • 第二周
  • 定義資料處理格式、資料分析方法,並進行資料清洗


  • 第三周
  • 進行資料處理、資料分析


  • 第四周
  • 雲端資料庫架設並將資料處理結果匯入資料庫


  • 第五周
  • flask網頁架設、雲端無伺服器服務架設、製作dashboard


  • 第六周
  • 製作linebot、架設爬蟲機


  • 第七周
  • 製作簡報,細節調整



資料源介紹

  • Googlemap
  • Googlemap 是現代人常拿來做為美食地圖的好工具,上面
    的評論往往能夠反映出餐廳最真實的樣貌,當然在分析資料
    時,我們也會將評論區裡面無用的資料刪除,例如沒有評價
    只有給星星的留言,以及明顯是洗評價的留言,以增加資料
    的準確性以及可用性。


  • Dcard
  • 是台灣的社群網路服務網站,開放給臺灣與國外部分大學學
    生註冊,上面的很多文章很多都是徵集網友的意見,尤其是
    Dcard的網站設計,將許多不同的討論主題分類分的鉅細靡
    ,使用上面的美食版來尋找餐廳的聲量,是非常適合的資料
    來源,在很多新創討論網站中,它儼然已經佔有一席之地


  • PTT
  • PTT是以提供個人板以及團體等私人性質為主的看板服務,
    從1995年就已經被創立,其中經歷許多改革卻仍歷久不衰,
    許多網友在蒐集資訊方面皆會在此看板上面發問以尋求解答
    對於餐廳意見的蒐集,雖然資料並非非常新或完整,但在許
    多網友眼裡,仍然是參考價值極高的一個網站。


  • ETTODAY
  • 東森新聞雲是整合新聞、資訊、知識和娛樂的訊息大平台,
    ,在眾多新聞媒體之中,它的立場非常中立,在娛樂新聞方
    面也表現亮眼,許多廠商皆會在他們的網站上下非常多廣告
    將其發布新聞的數量當成聲量統計的來源,是個不錯的選擇



分析結果說明
  • 王品集團
  • 服務-正面評價多次提及服務,代表消費者在餐廳用餐時很重視服務態度opcityoooooooooooooooooooooooooooooooo

    環境-留言提及氣氛、環境、伴侶次數較高,推測店內環境好可被列入適合約會餐廳


  • 瓦城集團
  • 服務-服務提及次數沒有特別多,表示相較於服務,消費者更注重其他重點

    環境-留言提及冰淇淋、自助吧,推測消費者會因有自助吧而到餐廳消費


  • 王品v.s瓦城-
  • 外送服務-外帶、外送,提及次數高,推測因近兩年受疫情影響,消費者對於這項服務需求提高

    王品正面聲量-服務好、用餐環境佳、好吃、慶生活動多

    王品負面聲量-難定位、候位較久

    瓦城正面聲量-食物、食材、口味佳

    瓦城負面聲量-口味太重、難訂位



碰到困難與如何解決

  • 資料源收集問題
  • 資料源的收集會有 資料太舊,資料量不夠,資訊太雜(圖文不符)、洗評論的問題。
    PTT、Dcard兩大論壇的美食版,可以先篩選掉不符合的文章,googlemap評論最直接也最貼近餐廳,
    但會有餐廳辦活動促銷的評論收集時透過程式碼先拿掉,ettoday許多企業皆會在他們的網站上下廣告,將其發布新聞的數量當成聲量統計的來源。


  • 資料清洗-表情符號
  • googlemap 、Dcard會有表情符號問題,須清洗後再放進資料庫,我們用python emoji、re模組 清洗。


  • 資料格式-不一致
  • 每個網站抓下來的呈現方式都不同我們需要整理成一致的格式再放進資料庫,舉例:PTT : Thu Jun 2 18:07:01 2022,
    Dcard:美食 6月2日 14:38 (今年的文章就不會有年份),可用 re找到數字、split將數字切開取需要的值、join合併一起、calendar模組 將月份轉換成需要的形式。


DV102 AI大數據

Team Member
甚麼都會甚麼都不奇怪,除了是selenium大師之外,AWS、MySQL樣樣都精通,唯一的缺點就是長得太帥,眾多優點之一就是缺點只有一個
Rick
爬蟲大神
Pandas、Numpy、emoji,每樣模組都用得淋漓盡致,資料清洗的去蕪存菁比家裡廁所地板乾淨。
Sherlin
資料處理女神
Tableau、Qlik、PowerBI、Oracle每樣資料視覺化平台都瞭若指掌,平均拉一張圖只需要一根手指頭,只有你沒想到的圖,沒有畫不出來的圖
Albee
視覺化女神
抱大腿大神,專長複製貼上,名言:萬事起頭難,只要會複製。只要鍵盤有CTRL、C、V,甚麼程式碼都會寫,
Jimmy
抱大腿的

TEL-0900-000-123
Email-RiALSHJI@gmail.com

Dcard
PTT
googlemap
ETTODAY
政府公開平台
DV102AI大數據