[討論] 關於 Dcard ML 實習作業 - 看板 Soft_Job

作者Sixigma (六西格瑪)

標題[討論] 關於 Dcard ML 實習作業

時間2023-05-14 01:29:57

看到下面有篇大神有討論到這次 Dcard ML 實習作業，因為沒有收到團隊的具體反饋想和大家討論作業的狀況題目是用結構資料，包含標題、看板資訊以及1-6小時的愛心數和評論數等等來預測發文後 24 小時的愛心數因為當時是期中，我只大概花了五天約二十個小時來做我的作法大致如下首先先用 XGBoost LightGBM 把量化資料做出 baseline 但沒辦法處理最重要的標題資訊所以就直接拿 Huggingface BERT 來做直接把資料餵進去的訓練是無法收斂的後來也嘗試一些 Emsemble 和 training tricks 但也都沒辦法收斂，甚至達不到 baseline 的效果認為是資料量的問題到這邊沒什麼特別想法就直接寫報告了我一直都主要是做 CV ，碩論跑去做 3D 對 NLP 非常不熟悉，不知道是否有漏掉關鍵操作想請同有拿到作業的大神指點謝謝 -- ※ 發信站: 批踢踢實業坊(ptt-site.org.tw), 來自: 118.171.131.209 (臺灣) ※ 文章網址: https://ptt-site.org.tw/Soft_Job/M.1683998999.A.DBB

推 changecandy: 你用BERT做了什麼以及什麼東西無法收斂？ 05/14 03:05

推 Tommnny: 這邊跪等神人分享我們實驗室沒有人上 05/14 10:49

推 Bujo: 這個案例建議使用LSTM序列 05/14 12:01

推 cilovwx: 雖然我也沒上，但我自己還有另外萃取出判斷個版跟標題是 05/14 13:05

→ cilovwx: 否有分類之類的feature，這兩項做關聯度分析，相關性也 05/14 13:05

推 OREOMZA: 記者收了包養網多少啦 05/14 13:05

→ cilovwx: 不低 05/14 13:05

推 DrTech: 你這樣 concatenate bert出來的維度那麼大，變成嚴重主導 05/14 14:36

→ DrTech: 預測結果。但實際上 05/14 14:36

→ DrTech: 但標題實際上根本不太會影響愛心與評論數。光看這點，就覺 05/14 14:38

→ DrTech: 得你沒有從最基本的業務理解business understanding來解了 05/14 14:38

推 punjab: 包養真亂 05/14 14:38

→ DrTech: 。 05/14 14:38

→ DrTech: 對了，資料量有多打？資料量少，用複雜的模型根本沒用。 05/14 14:41

→ DrTech: 資料量少的話，例如少於幾萬筆，對標題做任何處理可能都沒 05/14 14:46

→ DrTech: 太大意義。 05/14 14:46

→ DrTech: 這題，愛心數，評論數的特徵，相較於標題，標題絕對是雜訊 05/14 14:48

推 sashare: 演藝圈一堆包養好嗎 05/14 14:48

→ DrTech: 。 05/14 14:48

→ DrTech: HuggingFace tokenizer出來的標題維度很大的，只會讓標題 05/14 14:51

→ DrTech: 雜訊主導一切。當然沒辦法收斂，很正常。 05/14 14:51

→ DrTech: 資料量確實是問題。但人是否會根據標題就評論或點愛心，是 05/14 14:58

→ DrTech: 你優先需要思考到的。 05/14 14:58

推 sijiex: 政治圈一堆包養好嗎 05/14 14:58

推 cilovwx: 我自己對於標題的作法是單純直接用snownlp去做sentiment 05/14 16:44

→ cilovwx: polarity 而已，因為我自己認為標題其實只是吸引大家點 05/14 16:44

→ cilovwx: 進去的機率，但按愛心的數量跟內容比較有相關。我的model 05/14 16:44

→ cilovwx: 部分，我記得我一開始用xgboost效果不是很好，所以我後 05/14 16:44

→ cilovwx: 來改用SVR跟一個我自己建的NN模型。但是我那時候也在準 05/14 16:44

推 VLADINA: 有錢人一堆包養好嗎 05/14 16:44

→ cilovwx: 備其他事情，所以好像也沒有fine-tuned 得很好 05/14 16:44

推 hsuchengmath: 遇到這種一定是先做基本的統計分析啊，先看 24小 05/14 17:01

→ hsuchengmath: 時愛心數的分佈，然後分成多愛心數和少愛心數的 05/14 17:01

→ hsuchengmath: ，然後看哪些特徵是有用的，最後才建模啊，別在直 05/14 17:01

→ hsuchengmath: 接套膜了，不會進步的xdd 05/14 17:01

推 odemagus: 學生妹被包養多嗎 05/14 17:01

推 DrTech: 謝謝你，長文那麼仔細回應互動喔 05/14 17:54

→ changecandy: 直接使用BERT做預測的確是個挑戰，原因有很多就不展 05/14 18:43

→ changecandy: 開了，但你可以考慮換個用法，例如把BERT基於文字所 05/14 18:43

→ changecandy: 預測的分數當成你主要預測模型的其中一項特徵，這樣 05/14 18:43

→ changecandy: 也算是引入文字資訊了。 05/14 18:43

推 yes500: 亞洲最大包養網上線啦 05/14 18:43

噓 Matz: 去鴻海第一年150沒問題 05/14 21:13

推 abc21086999: 煩不煩哪裡都有鴻海 05/14 23:37

推 email81227: 好奇用哪個BERT Pre-Training的版本？ 05/15 03:09

推 nistik84114: 中文如果沒在你用的bert的tokenizer裡會直接被忽略 05/15 06:11

→ nistik84114: 喔確認一下 05/15 06:11

推 alexantiy: 我哥上包養網被我抓包.. 05/15 06:11

→ gamania0258: 話一堆時間寫作業還不給回饋這間很像挺看得起自己的 05/15 16:04

→ gamania0258: lul 只能說沒上是好事 05/15 16:04

推 T160: 我做法跟h大說的差不多XD 也是至少花了20小時以上時間搞這pr 05/15 22:35

→ T160: oject 結果就一封罐頭感謝函好歹也給個排名吧真的很沒誠意- 05/15 22:35

→ T160: _- 05/15 22:35

推 sowrey: 有人包養過洋鬼子嗎 05/15 22:35

推 hia261321: 根據之前看同學打比賽我猜可能有人自己去抓dcard的額 05/16 09:42

→ hia261321: 外資料來訓練資料量比一般人多很多的情況下隨便丟個 05/16 09:42

→ hia261321: 模型都贏大家 05/16 09:42

推 aacs0130: 推hsuchengmath跟DrTech 05/27 13:44