分析對象:十大惡性腫瘤申報發生人數及發生率

<aside> <img src="/icons/list_gray.svg" alt="/icons/list_gray.svg" width="40px" /> 資料來源:統計處 • 建檔日期:110-07-23 • 更新時間:113-03-22

https://www.mohw.gov.tw/dl-55647-a38af7d9-04cf-443c-899d-55612b6910ce.html

10551-01-01十大惡性腫瘤申報發生人數及發生率1130430.xlsx

</aside>

000.png

資料梳理(106年~110年)

篩選 (民國106年~民國110年) 五年間的台灣十大惡性腫瘤統計數據,整理成簡單易懂、易於數據格式轉換的 Excel 資料表。

十大惡性腫瘤申報發生人數及發生率.xlsx

0.png

GPT-4o 進行數據型態轉換 (dataframe)

<aside> <img src="/icons/list_gray.svg" alt="/icons/list_gray.svg" width="40px" /> 提示詞 請將全部 (106年~110年) 的工作表都轉換為可交互分析的表格

</aside>

十大惡性腫瘤申報發生人數及發生率.csv

1.png

GPT-4o 轉換為可交互分析的表格-反樞紐

<aside> <img src="/icons/list_gray.svg" alt="/icons/list_gray.svg" width="40px" /> 提示詞 這個表格太寬了,請將"部位"欄位抽離出來變成一個獨立的欄位,這樣我們的MEANSURE就剩發生人數和發生率了。

</aside>

看來資料的欄位名稱有些混亂,因此在進行分離和重新命名時出現了問題。讓我們重整一下資料,以確保每個部位和其對應的發生人數及發生率都能正確分離並呈現。

這是我們需要進行的步驟:

  1. 重整欄位名稱,確保每個部位的資料都能分離。
  2. 將部位、發生人數和發生率分別獨立成新的欄位。

讓我們重新整理這些欄位。

似乎我們需要進一步調整數據的結構。讓我們逐步檢查並處理每一列,以確保我們正確地將欄位名稱分配給數據。

首先,我們將查看數據中的每一列,以確保數據完整性並確定需要重命名的欄位。接下來,我們將逐列處理這些數據。

我們可以看到,每一行都有三組重複的欄位,分別對應總計、男性和女性的腫瘤發生情況。讓我們將這些資料重構成更易於分析的格式。

具體來說,我們將每一組資料分離成獨立的欄位,然後將各組資料整合在一起。

讓我們開始進行這一轉換。

現在,所有年度的資料已經被重構並合併到一個表格中,其中包含以下欄位:

這樣的結構更加便於進行交互分析。如果需要進一步的分析或特定操作,請告訴我。

十大惡性腫瘤申報發生人數及發生率 (重構後, 106年~110年).csv

2.png

GPT-4o 梳理新表格

<aside> <img src="/icons/list_gray.svg" alt="/icons/list_gray.svg" width="40px" /> 提示詞 請刪除順位值為空白的列

</aside>

十大惡性腫瘤申報發生人數及發生率 (順位值清理後, 106年~110年).csv

3.png