資訊文生研習室 : TQC 人工智慧應用及技術第四類第1~20題

1. 機器學習模型中，下列關於模型的偏差（Bias）與變異（Variance）之描述哪一項正確？
(A) 希望訓練好的模型能是高變異、低偏差
(B) 高偏差代表模型過於複雜
(C) 高變異代表模型過於簡單
(D) 偏差與變異之間存在一平衡（Trade-off）關係
Ans: D

2. 二元分類問題中，如果資料存在類別極度不平衡的問題，建立模型後在測試集達到了99%的準確度（Accuracy），下列描述哪一項正確？
(A) 模型有足夠高的準確度，可上線運行
(B) 準確率（Accuracy）不適合用來評估二元分類問題
(C) 應使用其他指標來評估不平衡的二元分類問題
(D) 可能有過擬合的風險，應更換更簡單的模型
Ans: C

3. 如附圖所示，三個模型是對於訓練資料的擬合程度，下列敘述哪一項正確？

(A) 最左邊圖片的模型有較高的變異（Variance）
(B) 中間圖片的模型複雜度不足
(C) 最右邊圖片的模型可能是過擬合（Overfitting）
(D) 三個模型的訓練結果都不好
Ans: C

4. 關於機器學習模型的敘述，下列哪一項正確？
(A) 一個模型如果在訓練集有較高的準確率（Accuracy），說明這個模型一定比較好
(B) 如果增加模型的複雜度，則測試集的錯誤率會降低
(C) 如果增加模型的複雜度，則訓練集的錯誤率會降低
(D) 訓練集的錯誤率越低，測試集的錯誤也會跟著越低
Ans: C

5. 關於訓練集與測試集的比例，下列哪一項較為正確？
(A) 訓練集：測試集＝６：４
(B) 訓練集：測試集＝５：５
(C) 訓練集：測試集＝２：８
(D) 比例不須固定，須根據資料集判斷
Ans: D

6. 當模型發生過擬合（Overfitting）的情形時，下列哪一種方法無法緩解？
(A) 減少模型複雜度
(B) 蒐集更多資料
(C) 增加模型訓練的時間
(D) 使用正則化
Ans: C

7. 關於評估指標F1-Score的描述，下列哪一項錯誤？
(A) 為精準率（Precision）及召回率（Recall）的調和平均數
(B) 計算公式為(2 * Precision * Recall) / (Precision + Recall)
(C) 目前僅有F1-Score而不存在F2-Score
(D) 可用在多類別分類的問題
Ans: C

8. 替線性迴歸模型增加一個不重要的特徵（Feature）後，R-square通常會發生什麼變化？
(A) 增加
(B) 減少
(C) 不變
(D) 不一定
Ans: A

9. 關於K折交叉驗證（K-fold Cross Validation）的敘述，下列哪一項正確？
(A) K值越大越好
(B) 越大的K值，模型評估的穩健度會越高
(C) 增加K值不會影響訓練的時間
(D) K不可以等於資料樣本數
Ans: B

10. 關於正規化參數L1、L2的敘述，下列哪一項錯誤？
(A) L1正規化偏向稀疏化，能夠有效去除無用的特徵
(B) L2正規化避免模型參數過於複雜，有效減緩過擬合
(C) L1、L2都是針對訓練資料做處理
(D) L1、L2正規化可以同時使用
Ans: C

11. 關於決策樹（Decision Tree）模型的敘述，下列哪一項錯誤？
(A) 使用訊息增益來衡量切分點
(B) 若不限制樹的深度，則最終每個節點上的樣本都屬於同個類別
(C) 是一具有可視化，可解釋力高的模型
(D) 決策樹相當穩健，不容易發生過擬合的情形
Ans: D

12. 若我們希望使用決策樹（Decision Tree）應用在巨量的資料集上，下列哪一種方式可以幫助我們最明顯減少訓練時間？
(A) 減少樹的數量
(B) 使用熵（Entropy）來衡量訊息增益
(C) 使用吉尼係數（Gini Index）來衡量訊息增益
(D) 降低樹的深度
Ans: D

13. 關於機器「學習」這個詞的意義，請問下列描述哪一種較為正確？
(A) 透過大量機器資源，從過去演算法中自動學習更好的規則
(B) 設定好目標函數，透過特定演算法從資料中學習出隱含的規則
(C) 利用大量未整理、未標記的資料，使用演算法自行歸納整理
(D) 利用程式碼告訴機器規則，讓機器自己學習分析
Ans: B

14. 關於隨機森林（Random Forest）的描述，下列哪一項錯誤？
(A) 是一種集成學習（Ensemble Learning）的方法
(B) 每次訓練出來的森林可能有不同的結果
(C) 每棵樹使用相同的訓練資料與特徵生成
(D) 透過每棵樹投票的方式決定最後的預測結果
Ans: C

15. 對於自助抽樣（Bootstrapping）演算法與提升（Boosting）演算法，下列描述哪一項錯誤？
(A) Boosting演算法會根據前一個弱模型的結果進一步優化
(B) Bootstrapping演算法透過隨機性來降低過擬合的情形
(C) Bootstrapping演算法通常使用取後不放回的方式進行取樣
(D) Boosting演算法是結合多個弱學習模型的結果，提升表現
Ans: C

16. 關於主成分分析（Principal Component Analysis）的描述，下列哪一項錯誤？
(A) 使用主成分分析前必須對資料做正規化
(B) 主成分分析可以將資料降維至任意維度（至少一維）
(C) 資料降至低維度後的視覺化通常不具參考價值
(D) 降維後的特徵通常難以被解釋
Ans: C

17. 關於K-means分群法的描述，下列哪一項錯誤？
(A) K-means中的K需要自行設定
(B) 衡量組內的距離算法可使用歐式距離
(C) K-means算法可以保證找到全域最佳解
(D) 起始點的選取可以有多種選擇
Ans: C

18. 如果支持向量機（Support Vector Machine）的模型發生欠擬合（Underfitting）的情形，下列哪一種方法可以改善？
(A) 減小懲罰參數C的值
(B) 增加懲罰參數C的值
(C) 減小gamma參數
(D) 增加訓練時間
Ans: B

19. 對於監督式學習（Supervised Learning）與無監督式學習（Unsupervised Learning）的描述，下列哪一項正確？
(A) 目前市場上以無監督式學習的應用較為廣泛
(B) 監督式學習需要已完整標記的資料
(C) 無監督式學習不需要使用目標函數來優化
(D) 無監督式學習不需要任何資料即可訓練
Ans: B

20. 若我們有一個高度非線性且變數極多的資料集，下列哪一種演算法比較可能取得好的表現？
(A) 線性迴歸
(B) 多項式迴歸
(C) 決策樹
(D) 每個模型都可能取得好的結果
Ans: C

資訊文生研習室

TQC 人工智慧應用及技術第四類第1~20題

沒有留言:

張貼留言

TQC 人工智慧應用及技術 第四類 第1~20題

沒有留言:

張貼留言

TQC 人工智慧應用及技術第四類第1~20題