Tạp chí Khoa học Công nghệ Xây dựng, NUCE 2021. 15 (2V): 110–120
ỨNG DỤNG THUẬT TOÁN “RỪNG NGẪU NHIÊN”
CHO PHÂN TÍCH HỒI QUI KHẢ NĂNG CHỊU TẢI CỦA KHUNG THÉP PHI TUYẾN
Hà Mạnh Hùnga,∗
aKhoa Xây dựng dân dụng và Công nghiệp, Trường Đại học Xây dựng, 55 đường Giải Phóng, quận Hai Bà Trưng, Hà Nội, Việt Nam Nhận ngày 11/04/2021, Sửa xong 06/05/2021, Chấp nhận đăng 07/05/2021
Tóm tắt
Các bài toán thiết kế công trình phức tạp như thiết kế tối ưu hay tính toán độ tin cậy tiêu tốn thời gian rất lớn đặc biệt là trong trường hợp sử dụng các phân tích phi tuyến. Vấn đề này có thể được giải quyết bằng cách sử dụng các mô hình dự báo như sử dụng các thuật toán máy học nhằm dự đoán ứng xử của công trình. Thuật toán
“rừng ngẫu nhiên” được xem là một trong những thuật toán máy học tốt nhất hiện nay nhờ sự ứng dụng hiệu quả của nó trong nhiều lĩnh vực nghiên cứu đối với cả bài toán phân tích hồi qui và phân loại. Trong bài báo này, tác giả giới thiệu một phương pháp dựa trên thuật toán “rừng ngẫu nhiên” để phân tích hồi quy khả năng chịu tải của khung thép. Phân tích trực tiếp được sử dụng để xác định khả năng chịu tải của khung thép. Các thông số đầu vào của mô hình là các đặc trưng về tiết diện của phần tử khung và đặc tính vật liệu. Một khung thép không gian 6 tầng được sử dụng làm ví dụ để đánh giá hiệu quả của mô hình. Kết quả thu được cho thấy, số lượng cây ra quyết định nên sử dụng≥100; Đối với bài toán hồi quy, cây ra quyết định nên được phân chia đến độ sâu tối đa; Và, độ chính xác của mô hình tăng lên khi số lượng mẫu huấn luyện tăng lên nhưng cần xem xét dựa trên tương quan giữa hiện quả mang lại về mặt kết quả và thời gian tính toán.
Từ khoá: rừng ngẫu nhiên; máy học; phân tích trực tiếp; khung thép; phi tuyến.
RANDOM FOREST-BASED METHOD FOR REGRESSION OF LOAD-CARRYING CAPACITY OF NON- LINEAR STEEL FRAMES
Abstract
Complex structural design problems such as optimal design or reliability calculation take excessive computa- tional efforts, especially in the case of using nonlinear analyzes. This problem can be solved by using meta- models such as using machine learning algorithms to predict building responses. The random forest has been considered as one of the most robust Machine Learning techniques since it has been successfully applied for both regression and classification problems in many fields. In this paper, we develop a random forest-based method for regression and classification of the load-carrying capacity of steel frames. Direct analysis is used to estimate the load-carrying capacity of this frame. The input variables are the information of cross-sections of structural members and material. A six-story space frame is studied to demonstrate the efficiency of the proposed method. The obtained results show that the number of decision-making trees should be greater than 100; For regression problems, decision trees should be divided up to maximum depth; And, the accuracy of the model increases when the number of trained samples increases but it should be considered based on the correlation between the results in terms of efficiency and calculation time.
Keywords: random forest; machine learning; direct analysis; steel frame; nonlinear.
https://doi.org/10.31814/stce.nuce2021-15(2V)-09 ©2021 Trường Đại học Xây dựng (NUCE)
∗Tác giả đại diện.Địa chỉ e-mail:[email protected](Hùng, H. M.)
110
1. Giới thiệu
Phân tích kết cấu công trình đòi hỏi phản ánh càng sát ứng xử thực tế của công trình càng tốt.
Chính vì vậy, các phương pháp phân tích hiện đại dựa trên phân tích trực tiếp ngày càng được sử dụng rộng rãi, đặc biệt là đối với kết cấu thép [1, 2]. Phân tích trực tiếp cũng được chấp nhận trong các phiên bản mới của các tiêu chuẩn AISC LRFD [3]. Ưu điểm của các phương pháp phân tích trực tiếp là chúng có khả năng mô tả ứng xử của cả hệ thống kết cấu công trình khi chịu tải trọng, đặc biệt là sự thay đổi của công trình khi tải trọng thay đổi. Qua đó, khả năng chịu tải của toàn bộ hệ thống công trình sẽ được xác định. Tính an toàn của công trình sẽ được đánh giá một cách đơn giản thông qua việc so sánh khả năng chịu tải của công trình không được nhỏ hơn áp lực do tải trọng gây ra [1,2].
Tuy nhiên, các phân tích trực tiếp thường rất tốn thời gian. Do vậy, ứng dụng của chúng còn hạn chế, đặc biệt là đối với các bài toán đòi hỏi phải có nhiều lần phân tích kết cấu như là bài toán tối ưu hay tính toán độ tin cậy của công trình [4–6]. Để giảm bớt số lượng phân tích kết cấu trong các bài toán này, một cách tiếp cận gần đúng sử dụng các mô hình thuật toán máy học (Machine learning) (ML) đang thu hút được sự quan tâm nghiên cứu trong thời gian gần đây [7,8].
Nói một cách tổng quát, các thuật toán ML trang bị cho máy tính khả năng tự động hiểu, phân tích, xử lý và học hỏi từ thông tin/dữ liệu đầu vào và từ đó để thực hiện các nhiệm vụ được giao.
Dựa trên đặc điểm này, thuật toán máy học có thể được sử dụng để huấn luyện máy tính có khả năng ước lượng ứng xử của kết cấu công trình dựa trên các thông tin đầu vào của kết cấu ví dụ như: kích thước, đặc điểm vật liệu, đặc điểm tải trọng, v.v. Một số nghiên cứu nổi bật về việc ứng dụng các thuật toán ML vào đánh giá ứng xử của kết cấu có thể kể đến ở đây như sau. Vũ và cs. [9] đã ứng dụng thuật toán Gradient Tree Boosting (GTB) để ước lượng khả năng chịu tải của cọc ống thép nhồi bê tông (CFST). Hùng và cs. [10] trình bày các xử lý hiện tượng quá khớp trong mô hình học sâu (Deep Learning) (DL) cho giàn thép phi tuyến. Ứng dụng các thuật toán ML để tính độ tin cậy của công trình cũng được nhiều nhà khoa học quan tâm nghiên cứu như: Yang và Hsieh [11] sử dụng Support Vector Machine (SVM), Chen và cs. [12] sử dụng Kriging, Gholizadeh [13] sử dụng mạng nơ-ron lan truyền ngược (back-propagation neural network), v.v. Bên cạnh đó, việc đánh giá/nhận diện hư hỏng của công trình bằng các thuật toán ML cũng thu được áp dụng ngày càng nhiều. Ví dụ như Oh và cs.
[14] sử dụng Bayesian để phân loại các trạng thái hư hỏng của công trình chịu động đất. Hasni và cs.
[15] sử dụng SVM để theo dõi sức khỏe công trình thép.
Trong việc ứng dụng thuật toán ML vào các bài toán thiết kế công trình, sự hiệu quả phụ thuộc rất nhiều yếu tố, trong đó có 2 yếu tố cơ bản cần lưu ý như sau. Thứ nhất, không có một thuật toán nào được xem là vượt trội hơn cả mà tùy thuộc vào lớp bài toán hay cụ thể hơn là đặc điểm của bài toán thiết kế. Do vậy, sự nghiên cứu và ứng dụng các thuật toán ML mới luôn là hết sức cần thiết nhằm tối ưu hóa trong công việc. Thứ hai, tính hiệu quả của mỗi thuật toán ML ảnh hưởng khá nhiều bởi việc lựa chọn các giá trị tham số hệ thống mà số lượng tham số hệ thống của mỗi thuật toán lại khá nhiều.
Cho nên, đối với mỗi lớp bài toán cụ thể, chúng ta cần thực hiện các phân tích, đánh giá nhằm tìm ra cách sử dụng các tham số là hiệu quả nhất cho mô hình huấn luyện.
Dựa trên quan điểm đó, trong bài báo này, tác giả trình bày chi tiết cách xây dựng mô hình huấn luyện cho bài toán ước lượng khả năng chịu tải của khung thép phi tuyến sử dụng thuật toán rừng ngẫu nhiên (Random Forest) (RF). Thuật toán rừng ngẫu nhiên được lựa chọn dựa trên sự hiệu quả, mạnh mẽ của nó trong việc giải quyết các bài toán phân tích hồi qui và phân loại [16,17]. Thêm vào đó, chưa có nghiên cứu cụ thể nào trình bày sự áp dụng thuật toán này vào bài toán ước lượng khả năng chịu tải của khung thép phi tuyến. Một khung thép không gian 6 tầng được sử dụng để minh họa cho cách thiết lập mô hình huấn luyện sử dụng RF. Ảnh hưởng của các tham số hệ thống của RF đến hiệu quả của mô hình cũng được tiến hành phân tích nhằm đưa ra các đề xuất lựa chọn giá trị tham số
Hùng, H. M. / Tạp chí Khoa học Công nghệ Xây dựng
hợp lý.
2. Thuật toán rừng ngẫu nhiên
RF được giới thiệu lần đầu tiên bởi Breiman vào năm 2001 [18]. Nó là một phương pháp phân loại và hồi quy theo phương thức học có kiểm soát, bao gồm sự kết hợp nhiều cây dự báo/cây ra quyết định. Mỗi cây ra quyết định được tạo ra dựa trên một tập mẫu huấn luyện ngẫu nhiên được tạo ra từ tập mẫu huấn luyện ban đầu với cùng độ lớn theo nguyên tắc lấy mẫu có hoàn lại (phương pháp Bootstrap) nghĩa là một mẫu có thể được lấy nhiều lần. Các cây ra quyết định dựa trên tập mẫu vừa tạo ra với nguyên tắc chỉ sử dụng một số lượng biến đầu vào tại mỗi nút phân chia. Kết quả cuối cùng là giá trị trung bình kết quả thu được từ tất cả các cây ra quyết định. Bằng cách sử dụng thật nhiều cây ra quyết định, sai số ước lượng của mô hình sẽ được giảm đi đáng kể. Nguyên lý của thuật toán được tóm tắt trong Hình1.
Tạp chí Khoa học Công nghệ Xây dựng, NUCE2020 p-ISSN 2615-9058; e-ISSN 2734-9489
4 106
Hình 1. Thuật toán rừng ngẫu nhiên 107
Trong bài toán hồi quy, các cây dự báo sẽ nhận các giá trị số cụ thể thay vì kỹ 108
thuật phân loại (ra quyết định) [19]. Trong thiết kế các cây ra quyết định của phân tích 109
hồi quy, các cây được cho phép phát triển đến độ sâu tối đa của dữ liệu huấn luyện mà 110
không tiến hành giản lược lại (ngắt cành). Đây cũng là một ưu điểm chính của thuật 111
toán này bởi vì việc thực hiện giản lược cây là một yếu tố chính ảnh hưởng đến hiệu 112
suất của mô hình [20]. Breiman [19] cũng cho rằng khi số lượng cây tăng lên, sai số 113
tổng quát luôn hội tụ ngay cả khi không giản lược cây, và việc xử lý hiện tượng mô hình 114
quá khớp được thực hiện dựa trên nguyên tắc luật số lớn (Strong Law of Large 115
Numbers) [21]. Số lượng biến được sử dụng (N) tại mỗi nút để tạo ra một cây ra quyết 116
định và số lượng cây ra quyết định (k) được sử dụng là hai tham số do người dùng lựa 117
chọn trước [19].
118
Dựa trên trình bày trên đây, chúng ta rút ra được các thông số quan trọng có thể 119
ảnh hưởng đến hiệu suất của mô hình rừng ngẫu nhiên là: (1) số lượng cây ra quyết định 120
được sử dụng; (2) kỹ thuật lấy mẫu (sử dụng hay không sử dụng kỹ thuật bootstrap);
121
(3) số lượng biến được sử dụng tại mỗi nút; (4) đặc điểm của tập dữ liệu bao gồm thông 122
số đầu vào và thông số đầu ra của mô hình.
123
3. Xây dựng thuật toán sử dụng rừng ngẫu nhiên để ước lượng khả năng chịu tải 124
của khung thép 125
3.1. Khả năng chịu tải của khung thép 126
Trong các phương pháp phân tích trực tiếp, sự an toàn của kết cấu được đánh giá 127
thông qua việc so sánh khả năng chịu tải của toàn bộ hệ thống với tải trọng tác dụng lên 128
công trình. Nếu khả năng chịu tải lớn hơn tải trọng tác dụng thì ta có công trình an toàn, 129
ngược lại thì công trình sẽ mất an toàn. Để chuẩn hóa tính chất này, thay vì sử dụng 130
Hình 1. Thuật toán rừng ngẫu nhiên
Trong bài toán hồi quy, các cây dự báo sẽ nhận các giá trị số cụ thể thay vì kỹ thuật phân loại (ra quyết định) [19]. Trong thiết kế các cây ra quyết định của phân tích hồi quy, các cây được cho phép phát triển đến độ sâu tối đa của dữ liệu huấn luyện mà không tiến hành giản lược lại (ngắt cành). Đây cũng là một ưu điểm chính của thuật toán này bởi vì việc thực hiện giản lược cây là một yếu tố chính ảnh hưởng đến hiệu suất của mô hình [20]. Breiman [19] cũng cho rằng khi số lượng cây tăng lên, sai số tổng quát luôn hội tụ ngay cả khi không giản lược cây, và việc xử lý hiện tượng mô hình quá khớp được thực hiện dựa trên nguyên tắc luật số lớn (Strong Law of Large Numbers) [21]. Số lượng biến được sử dụng (N) tại mỗi nút để tạo ra một cây ra quyết định và số lượng cây ra quyết định (k) được sử dụng là hai tham số do người dùng lựa chọn trước [19].
Dựa trên trình bày trên đây, chúng ta rút ra được các thông số quan trọng có thể ảnh hưởng đến hiệu suất của mô hình rừng ngẫu nhiên là: (1) số lượng cây ra quyết định được sử dụng; (2) kỹ thuật lấy mẫu (sử dụng hay không sử dụng kỹ thuật bootstrap); (3) số lượng biến được sử dụng tại mỗi nút;
(4) đặc điểm của tập dữ liệu bao gồm thông số đầu vào và thông số đầu ra của mô hình.
112
3. Xây dựng thuật toán sử dụng rừng ngẫu nhiên để ước lượng khả năng chịu tải của khung thép
3.1. Khả năng chịu tải của khung thép
Trong các phương pháp phân tích trực tiếp, sự an toàn của kết cấu được đánh giá thông qua việc so sánh khả năng chịu tải của toàn bộ hệ thống với tải trọng tác dụng lên công trình. Nếu khả năng chịu tải lớn hơn tải trọng tác dụng thì ta có công trình an toàn, ngược lại thì công trình sẽ mất an toàn.
Để chuẩn hóa tính chất này, thay vì sử dụng khái niệm khả năng chịu tải của kết cấu, chúng ta có thể sử dụng thông số “hệ số khả năng chịu tải của kết cấu” (LF) được định nghĩa là tỉ lệ giữa khả năng chịu tải của công trình (R) và hiệu ứng do tải trọng gây ra (S):
LF= R
S (1)
Lúc này kết cấu được xem là an toàn nếu LF ≥ 1và ngược lại. Trong nghiên cứu này, LF của khung thép được tính toán dựa trên phân tích phi tuyến tính phi đàn hồi trình bày trong tài liệu [1].
3.2. Xây dựng tập dữ liệu huấn luyện
Xây dựng tập dữ liệu luôn là bước đầu tiên và quan trọng nhất cho việc xây dựng mô hình huấn luyện. Để việc nắm bắt cách thức xây dựng dữ liệu cho bài toán ước lượng khả năng chịu tải củaTạp chí Khoa học Công nghệ Xây dựng, NUCE2020 p-ISSN 2615-9058; e-ISSN 2734-9489
148
Hình 2. Khung thép không gian 6 tầng 149
Một tập dữ liệu gồm 20000 dữ liệu được tạo ra bằng cách tổ hợp ngẫu nhiên các 150
tiết diện dầm và cột khác nhau. Phần mềm phân tích phi tuyến PAAP [1] được sử dụng 151
để tạo mẫu. Với một bộ thông số tiết diện của dầm cột, phần mềm phân tích kết cấu phi 152
tuyến tính phi đàn hồi được thực hiện để thu được LFtương ứng. Hình 3 thể hiện sự 153
Hình 2. Khung thép không gian 6 tầng 113
Hùng, H. M. / Tạp chí Khoa học Công nghệ Xây dựng
khung thép, một ví dụ khung thép không gian 6 tầng như trong Hình 2được sử dụng để minh họa trực tiếp. Trong khung, các dầm và cột được chia thành 13 nhóm tiết diện khác nhau như trên Hình2.
Các cột được thiết kế sử dụng tiết diện W12 và W14, và các dầm được thiết kế sử dụng tiết diện W10, W12, W14 và W16. Vật liệu thép là A992 với mô-đun đàn hồi bằng 200 (Gpa) và cường độ chảy bằng 345 (Mpa). Tải trọng gió tác dụng theo phương Y tại các nút khung có giá trị là 20 kN. Tải trọng thẳng đứng phân bố trên các dầm bằng 5,5 kN/m.
Tạp chí Khoa học Công nghệ Xây dựng, NUCE2020 p-ISSN 2615-9058; e-ISSN 2734-9489
7
phân bố giá trị LFcủa 20000 dữ liệu được tạo ra. Dựa vào hình chúng ta thấy, LFcủa 154
khung nằm chủ yếu trong khoảng giá trị từ (0.5 – 4.0). Tỉ lệ LF< 1 chiếm khoảng 29%.
155
LFđược lựa chọn là thông số đầu ra của mô hình huấn luyện. Thông số đầu vào của mô 156
hình là các đặc trưng của tiết diện dầm và cột. Đối với bài toán khung, rất nhiều đặc 157
trưng của tiết diện có thể ảnh hưởng đến ứng xử của kết cấu. Do vậy, để độ chính xác 158
của mô hình càng cao, càng nhiều đặc tính của tiết diện được xét đến trong mô hình 159
huấn luyện càng tốt. Trong nghiên cứu này, 16 loại đặc tính của tiết diện được trình bày 160
trong Bảng 1 được sử dụng như biến đầu vào của mô hình do chúng có ảnh hưởng lớn 161
trong chương trình phân tích phi tuyến tính phi đàn hồi được sử dụng. Với 13 nhóm tiết 162
diện của khung, chúng ta sẽ có tổng cộng là 208 biến đầu vào.
163
164
Hình 3. Phân bố giá trị của LF của tập dữ liệu 165
Bảng 1. Đặc trưng hình học của tiết diện được xem xét như biến đầu vào 166
Đặc trưng của tiết diện 1
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Hệ số cong vênh
Bán kính hồi chuyển đối với trục yếu Mô men tĩnh đối với trục y
Mô men tĩnh đối với trục z Hệ số xoắn
Mô men quán tính đối với trục y Mô men quán tính đối với trục z Diện tích tiết diện
Diện tích miền cắt để tính cắt dọc theo trục y Diện tích miền cắt để tính cắt dọc theo trục z Mô men quán tính dẻo đối với trục y Mô men quán tính dẻo đối với trục z Chiều cao tiết diện
Chiều rộng bản cánh Chiều dày bản cánh Chiều dày vách
Hình 3. Phân bố giá trị của LF của tập dữ liệu
Bảng 1. Đặc trưng hình học của tiết diện được xem xét như biến đầu vào
Đặc trưng của tiết diện
1 Hệ số cong vênh
2 Bán kính hồi chuyển đối với trục yếu
3 Mô men tĩnh đối với trụcy
4 Mô men tĩnh đối với trụcz
5 Hệ số xoắn
6 Mô men quán tính đối với trụcy
7 Mô men quán tính đối với trụcz
8 Diện tích tiết diện
9 Diện tích miền cắt để tính cắt dọc theo trụcy 10 Diện tích miền cắt để tính cắt dọc theo trụcz
11 Mô men quán tính dẻo đối với trụcy
12 Mô men quán tính dẻo đối với trụcz
13 Chiều cao tiết diện
14 Chiều rộng bản cánh
15 Chiều dày bản cánh
16 Chiều dày vách
Một tập dữ liệu gồm 20000 dữ liệu được tạo ra bằng cách tổ hợp ngẫu nhiên các tiết diện dầm và cột khác nhau. Phần mềm phân tích phi tuyến PAAP [1] được sử dụng để tạo mẫu. Với một bộ thông số tiết diện của dầm cột, phần mềm phân tích kết cấu phi tuyến tính phi đàn hồi được thực hiện để thu đượcLF tương ứng. Hình3thể hiện sự phân bố giá trịLF của 20000 dữ liệu được tạo ra. Dựa vào
114
hình chúng ta thấy,LFcủa khung nằm chủ yếu trong khoảng giá trị từ (0,5 – 4,0). Tỉ lệLF< 1 chiếm khoảng 29%.LFđược lựa chọn là thông số đầu ra của mô hình huấn luyện. Thông số đầu vào của mô hình là các đặc trưng của tiết diện dầm và cột. Đối với bài toán khung, rất nhiều đặc trưng của tiết diện có thể ảnh hưởng đến ứng xử của kết cấu. Do vậy, để độ chính xác của mô hình càng cao, càng nhiều đặc tính của tiết diện được xét đến trong mô hình huấn luyện càng tốt. Trong nghiên cứu này, 16 loại đặc tính của tiết diện được trình bày trong Bảng1được sử dụng như biến đầu vào của mô hình do chúng có ảnh hưởng lớn trong chương trình phân tích phi tuyến tính phi đàn hồi được sử dụng. Với 13 nhóm tiết diện của khung, chúng ta sẽ có tổng cộng là 208 biến đầu vào.
3.3. Xây dựng mô hình huấn luyện
Trình tự các bước xây dựng mô hình huấn luyện sử dụng thuật toán rừng ngẫu nhiên như sau:
Bước 1: Xây dựng bài toán. Trong bước này chúng ta cần xây dựng được tập dữ liệu, xác định được các biến đầu vào và biến đầu ra của mô hình huấn luyện. Đây chính là nội dung đã được trình bày chi tiết trong phần 3.2.
Bước 2: Phân chia tập dữ liệu và chuẩn hóa dữ liệu. Tập dữ liệu ban đầu sẽ được phân chia thành 2 tập riêng biệt: (1) tập huấn luyện được sử dụng cho quá trình huấn luyện mô hình và (2) tập kiểm tra được sử dụng để đánh giá hiệu quả của mô hình. Đối với các tập dữ liệu có giá trị của các thông số đầu vào khác nhau quá nhiều, các dữ liệu thường được chuẩn hóa bằng cách đưa về trong khoảng [0, 1] nhằm việc huấn luyện đạt hiệu quả cao hơn. Công thức để chuẩn hóa được sử dụng như sau:
x0i = xi
[xi] (2)
trong đó[xi]là giá trị lớn nhất của biến đầu vàoxi.
Bước 3: Xây dựng mô hình huấn luyện. Một số tham số chính của mô hình như sau:
- Hàm mất mát (loss function): Hàm mất mát được hiểu là hàm mục tiêu sẽ được tối thiểu hóa trong quá trình huấn luyện của mô hình. Đối với bài toán phân tích hồi quy, các dạng hàm mất mát thường dùng: “sai số toàn phương trung bình” (mean-squared-error) (MSE), “sai số tuyệt đối trung bình” (mean-absolute-error) (MAE). Trong nghiên cứu này, hàm MSE được sử dụng.
- Số lượng cây ra quyết định (n_estimators): đây là một tham số có ảnh hưởng rất lớn đến độ chính xác cùa mô hình. Vai trò của cây ra quyết định đã được trình bày và phân tích trong phần 2.
- Kỹ thuật lấy mẫu: có 2 kỹ thuật cơ bản là: (1) lấy mẫu có hoàn lại (phương pháp Bootstrap) và (2) toàn bộ mẫu được sử dụng để xây dựng mỗi cây ra quyết định.
Bước 4: Huấn luyện mô hình. Đây là dạng huấn luyện có kiểm soát trên tập huấn luyện. Hiệu suất của mô hình được đánh giá dựa vào tập kiểm tra. Mô hình thu được được sử dụng để ước lượng hệ số khả năng chịu tải của khung thép.
4. Kết quả
Trong phần này, chúng ta lần lượt đánh giá ảnh hưởng của các thông số mô hình đến hiệu suất làm việc của mô hình rừng ngẫu nhiên. Từ đó, các khuyến nghị được đưa nhà nhằm giúp người đọc có thể lựa chọn hiệu quả hơn khi áp dụng thuật toán này vào trong công việc của mình. Ngôn ngữ lập trình Python cùng thư viện Sklearn được sử dụng để mô hình hóa mô hình huấn luyện rừng ngẫu nhiên.
Hùng, H. M. / Tạp chí Khoa học Công nghệ Xây dựng
4.1. Ảnh hưởng của số lượng cây ra quyết định
Trong phân tích đầu tiên về ảnh hưởng của số lượng cây ra quyết định đến mô hình huấn luyện rừng ngẫu nhiên, số lượng mẫu dữ liệu cho tập huấn luyện và tập kiểm tra được lấy bằng 5000, kỹ thuật lấy mẫu là kỹ thuật lấy mẫu có hoàn lại (sử dụng bootstrap), số lượng cây ra quyết định được thay đổi từ 1 đến 1000. Dạng hàm mất mát được sử dụng là MSE. Để giảm ảnh hưởng của tính ngẫu nhiên đến kết quả tính toán, tương ứng với mỗi trường hợp chương trình được chạy độc lập 10 lần. Kết quả tính toán được thể hiện trong Hình4. Ta có thể thấy rằng khi số lượng cây ra quyết định tăng lên, giá trị hàm mất mát của cả tập huấn luyện và tập kiểm tra đều giảm đi, tức mô hình huấn luyện càng tốt lên. Khi số lượng cây ra quyết định được sử dụng≥100, giá trị hàm mất mát của 2 tập dữ liệu hầu như không thay đổi nữa (đã hội tụ). Do vậy, số lượng cây ra quyết định nên được sử dụng với giá trị đủ lớn và khuyến nghị là≥100.
Tạp chí Khoa học Công nghệ Xây dựng, NUCE2020 p-ISSN 2615-9058; e-ISSN 2734-9489
9
dụng để mô hình hóa mô hình huấn luyện rừng ngẫu nhiên.
200
4.1. Ảnh hưởng của số lượng cây ra quyết định 201
Trong phân tích đầu tiên về ảnh hưởng của số lượng cây ra quyết định đến mô 202
hình huấn luyện rừng ngẫu nhiên, số lượng mẫu dữ liệu cho tập huấn luyện và tập kiểm 203
tra được lấy bằng 5000, kỹ thuật lấy mẫu là kỹ thuật lấy mẫu có hoàn lại (sử dụng 204
bootstrap), số lượng cây ra quyết định được thay đổi từ 1 đến 1000. Dạng hàm mất mát 205
được sử dụng là MSE. Để giảm ảnh hưởng của tính ngẫu nhiên đến kết quả tính toán, 206
tương ứng với mỗi trường hợp chương trình được chạy độc lập 10 lần. Kết quả tính toán 207
được thể hiện trong Hình 4. Ta có thể thấy rằng khi số lượng cây ra quyết định tăng lên, 208
giá trị hàm mất mát của cả tập huấn luyện và tập kiểm tra đều giảm đi, tức mô hình huấn 209
luyện càng tốt lên. Khi số lượng cây ra quyết định được sử dụng ≥ 100, giá trị hàm mất 210
mát của 2 tập dữ liệu hầu như không thay đổi nữa (đã hội tụ). Do vậy, số lượng cây ra 211
quyết định nên được sử dụng với giá trị đủ lớn và khuyến nghị là ≥ 100.
212
213
Hình 4. Ảnh hưởng của số cây ra quyết định đến hiệu suất của mô hình huấn luyện 214
Để làm rõ hơn hiệu quả của thuật toán RF, Hình 5 trình bày so sánh giá trị hàm 215
mất mát của thuật toán RF với 2 thuật toán khác là thuật toán cây ra quyết định (DT) và 216
thuật toán SVM. Lưu ý rằng kết quả trình bày trong hình là cho tập kiểm tra với số 217
lượng mẫu trong tập kiểm tra được cố định là 5000. Số lượng mẫu trong tập huấn luyện 218
được thay đổi từ 500 đến 20000 mẫu. Kết quả cho thấy rằng thuật toán RF cho giá trị 219
hàm mất mát thấp hơn khá nhiều so với DT và SVM. Điều này có nghĩa là RF hiệu quả 220
và mạnh hơn trong trường hợp nghiên cứu này.
221
Hình 4. Ảnh hưởng của số cây ra quyết định đến hiệu suất của mô hình huấn luyện
Để làm rõ hơn hiệu quả của thuật toán RF, Hình5trình bày so sánh giá trị hàm mất mát của thuật toán RF với 2 thuật toán khác là thuật toán cây ra quyết định (DT) và thuật toán SVM. Lưu ý rằng kết quả trình bày trong hình là cho tập kiểm tra với số lượng mẫu trong tập kiểm tra được cố định là 5000. Số lượng mẫu trong tập huấn luyện được thay đổi từ 500 đến 20000 mẫu. Kết quả cho thấy rằng thuật toán RF cho giá trị hàm mất mát thấp hơn khá nhiều so với DT và SVM. Điều này có nghĩa là RF hiệu quả và mạnh hơn trong trường hợp nghiên cứu này.Tạp chí Khoa học Công nghệ Xây dựng, NUCE2020 p-ISSN 2615-9058; e-ISSN 2734-9489
10 222
Hình 5. So sánh hiệu quả của các thuật toán máy học 223
4.2. Ảnh hưởng của kỹ thuật lấy mẫu 224
Hình 4 trong phần 4.1 cũng thể hiện kết quả của kỹ thuật lấy mẫu có hoàn lại đến 225
hiệu suất của mô hình. Để đánh giá kỹ hơn, chúng ta tiếp tục xem xét ảnh hưởng của kỹ 226
thuật lấy mẫu thông thường (không sử dụng bootstrap) đến hiệu suất mô hình huấn 227
luyện. Điều này có nghĩa là tất cả dữ liệu được sử dụng trong mỗi cây ra quyết định.
228
Kết quả tính toán được thể hiện trong Hình 6. Ta có thể thấy rằng giá trị hàm mất mát 229
của cả tập huấn luyện và tập kiểm tra không thay đổi khi số lượng cây ra quyết định 230
tăng lên, tương ứng bằng 4.15E-05 và 2.5E-03. Đồng thời, giá trị hàm mất mát đối với 231
tập kiểm tra trong trường hợp sử dụng kỹ thuật lấy mẫu thông thường kém hơn rất nhiều 232
so với khi sử dụng kỹ thuật lấy mẫu có hoàn lại được trình bày trong Hình 4 (bằng 1.1E- 233
03). Điều này có nghĩa là kỹ thuật lấy mẫu có hoàn lại nên được sử dụng trong thuật 234
toán ngẫu nhiên.
235
236
Hình 6. Ảnh hưởng của số cây ra quyết định đến hiệu suất của mô hình huấn luyện 237
Hình 5. So sánh hiệu quả của các thuật toán máy học
116
Hùng, H. M. / Tạp chí Khoa học Công nghệ Xây dựng
4.2. Ảnh hưởng của kỹ thuật lấy mẫu
Hình4trong phần 4.1 cũng thể hiện kết quả của kỹ thuật lấy mẫu có hoàn lại đến hiệu suất của mô hình. Để đánh giá kỹ hơn, chúng ta tiếp tục xem xét ảnh hưởng của kỹ thuật lấy mẫu thông thường (không sử dụng bootstrap) đến hiệu suất mô hình huấn luyện. Điều này có nghĩa là tất cả dữ liệu được sử dụng trong mỗi cây ra quyết định. Kết quả tính toán được thể hiện trong Hình6. Ta có thể thấy rằng giá trị hàm mất mát của cả tập huấn luyện và tập kiểm tra không thay đổi khi số lượng cây ra quyết định tăng lên, tương ứng bằng 4,15E-05 và 2,5E-03. Đồng thời, giá trị hàm mất mát đối với tập kiểm tra trong trường hợp sử dụng kỹ thuật lấy mẫu thông thường kém hơn rất nhiều so với khi sử dụng kỹ thuật lấy mẫu có hoàn lại được trình bày trong Hình4(bằng 1,1E-03). Điều này có nghĩa là kỹ thuật lấy mẫu có hoàn lại nên được sử dụng trong thuật toán ngẫu nhiên.
10 222
Hình 5. So sánh hiệu quả của các thuật toán máy học 223
4.2. Ảnh hưởng của kỹ thuật lấy mẫu 224
Hình 4 trong phần 4.1 cũng thể hiện kết quả của kỹ thuật lấy mẫu có hoàn lại đến 225
hiệu suất của mô hình. Để đánh giá kỹ hơn, chúng ta tiếp tục xem xét ảnh hưởng của kỹ 226
thuật lấy mẫu thông thường (không sử dụng bootstrap) đến hiệu suất mô hình huấn 227
luyện. Điều này có nghĩa là tất cả dữ liệu được sử dụng trong mỗi cây ra quyết định.
228
Kết quả tính toán được thể hiện trong Hình 6. Ta có thể thấy rằng giá trị hàm mất mát 229
của cả tập huấn luyện và tập kiểm tra không thay đổi khi số lượng cây ra quyết định 230
tăng lên, tương ứng bằng 4.15E-05 và 2.5E-03. Đồng thời, giá trị hàm mất mát đối với 231
tập kiểm tra trong trường hợp sử dụng kỹ thuật lấy mẫu thông thường kém hơn rất nhiều 232
so với khi sử dụng kỹ thuật lấy mẫu có hoàn lại được trình bày trong Hình 4 (bằng 1.1E- 233
03). Điều này có nghĩa là kỹ thuật lấy mẫu có hoàn lại nên được sử dụng trong thuật 234
toán ngẫu nhiên.
235
236
Hình 6. Ảnh hưởng của số cây ra quyết định đến hiệu suất của mô hình huấn luyện 237
Hình 6. Ảnh hưởng của số cây ra quyết định đến hiệu suất của mô hình huấn luyện
4.3. Ảnh hưởng của một số thông số khác
Bên cạnh 2 tham số quan trọng ảnh hưởng đến hiệu suất của mô hình rừng ngẫu nhiên được trình bày ở trên, một số tham số khác cần quan tâm là: (1) số lượng mẫu tối thiểu tại 1 nút, (2) số lượng mẫu tối thiểu tại một lá và (3) số lượng biến đầu vào lớn nhất cho phép sử dụng đối với một cây ra quyết định. Ảnh hưởng của 3 tham số này được trình bày trong Hình7,8và9. Hình7và8cho thấy rằng khi quy định số lượng mẫu tối thiểu tại nút và lá tăng lên, độ chính xác của mô hình bị giảm đi
Tạp chí Khoa học Công nghệ Xây dựng, NUCE2020 p-ISSN 2615-9058; e-ISSN 2734-9489
4.3. Ảnh hưởng của một số thông số khác 238
Bên cạnh 2 tham số quan trọng ảnh hưởng đến hiệu suất của mô hình rừng ngẫu 239
nhiên được trình bày ở trên, một số tham số khác cần quan tâm là: (1) số lượng mẫu tối 240
thiểu tại 1 nút, (2) số lượng mẫu tối thiểu tại một lá và (3) số lượng biến đầu vào lớn 241
nhất cho phép sử dụng đối với một cây ra quyết định. Ảnh hưởng của 3 tham số này 242
được trình bày trong Hình 7, 8 và 9. Hình 7 và 8 cho thấy rằng khi quy định số lượng 243
mẫu tối thiểu tại nút và lá tăng lên, độ chính xác của mô hình bị giảm đi đối với cả tập 244
huấn luyện và tập kiểm tra. Do vậy, đối với các bài toán phân tích hồi quy, các cây ra 245
quyết định nên được xây dựng với độ sâu tối đa của dữ liệu. Hay nói một cách khác là 246
số lượng mẫu tối thiểu tại mỗi lá là 1 và tại mỗi nút là 2. Hình 9 cho thấy rằng việc giới 247
hạn số lượng biến đầu vào cho phép sử dụng tại mỗi cây ra quyết định không ảnh hưởng 248
lớn đến hiệu suất của bài toán hồi quy. Điều đó có nghĩa là người dùng có thể sử dụng 249
số lượng biến đầu vào tối đa cho mỗi cây tùy ý (lưu ý không được quá bé). Tuy nhiên, 250
dựa trên Hình 9, hiệu suất của mô hình sẽ tăng lên một chút (không đáng kể) nếu số 251
lượng biến đầu vào tối đa cho mỗi cây bé hơn tổng số lượng biến đầu vào của dữ liệu.
252
253
Hình 7. Ảnh hưởng của số lượng mẫu tối thiểu tại một nút đến hiệu suất của mô hình 254
huấn luyện
Hình 7. Ảnh hưởng của số lượng mẫu tối thiểu tại một nút đến hiệu suất của mô hình huấn luyện255
117
Hùng, H. M. / Tạp chí Khoa học Công nghệ Xây dựng
Tạp chí Khoa học Công nghệ Xây dựng, NUCE2020 p-ISSN 2615-9058; e-ISSN 2734-9489
12 256
Hình 8. Ảnh hưởng của số lượng mẫu tối thiểu tại một lá đến hiệu suất của mô hình 257
huấn luyện 258
259
Hình 9. Ảnh hưởng của số lượng mẫu tối thiểu tại một lá đến hiệu suất của mô hình 260
huấn luyện 261
4.4. Ảnh hưởng của độ lớn dữ liệu huấn luyện 262
Dựa trên các phân tích trên, để đánh giá ảnh hưởng của độ lớn dữ liệu huấn luyện 263
đến mô hình, trong phần này các tham số của mô hình được lựa chọn như sau: số lượng 264
cây ra quyết định = 100, kỹ thuật lấy mẫu có hoàn lại (sử dụng bootstrap), số lượng mẫu 265
tối thiểu tại 1 nút = 2, số lượng mẫu tối thiểu tại một lá = 1 và số lượng biến đầu vào 266
lớn nhất cho phép sử dụng đối với một cây ra quyết định = số lượng biến đầu vào. Số 267
Hình 8. Ảnh hưởng của số lượng mẫu tối thiểu tại một lá đến hiệu suất của mô hình huấn luyện
Tạp chí Khoa học Công nghệ Xây dựng, NUCE2020 p-ISSN 2615-9058; e-ISSN 2734-9489
12 256
Hình 8. Ảnh hưởng của số lượng mẫu tối thiểu tại một lá đến hiệu suất của mô hình 257
huấn luyện 258
259
Hình 9. Ảnh hưởng của số lượng mẫu tối thiểu tại một lá đến hiệu suất của mô hình 260
huấn luyện 261
4.4. Ảnh hưởng của độ lớn dữ liệu huấn luyện 262
Dựa trên các phân tích trên, để đánh giá ảnh hưởng của độ lớn dữ liệu huấn luyện 263
đến mô hình, trong phần này các tham số của mô hình được lựa chọn như sau: số lượng 264
cây ra quyết định = 100, kỹ thuật lấy mẫu có hoàn lại (sử dụng bootstrap), số lượng mẫu 265
tối thiểu tại 1 nút = 2, số lượng mẫu tối thiểu tại một lá = 1 và số lượng biến đầu vào 266
lớn nhất cho phép sử dụng đối với một cây ra quyết định = số lượng biến đầu vào. Số 267
Hình 9. Ảnh hưởng của số lượng mẫu tối thiểu tại một lá đến hiệu suất của mô hình huấn luyện
đối với cả tập huấn luyện và tập kiểm tra. Do vậy, đối với các bài toán phân tích hồi quy, các cây ra quyết định nên được xây dựng với độ sâu tối đa của dữ liệu. Hay nói một cách khác là số lượng mẫu tối thiểu tại mỗi lá là 1 và tại mỗi nút là 2. Hình9cho thấy rằng việc giới hạn số lượng biến đầu vào cho phép sử dụng tại mỗi cây ra quyết định không ảnh hưởng lớn đến hiệu suất của bài toán hồi quy.
Điều đó có nghĩa là người dùng có thể sử dụng số lượng biến đầu vào tối đa cho mỗi cây tùy ý (lưu ý không được quá bé). Tuy nhiên, dựa trên Hình9, hiệu suất của mô hình sẽ tăng lên một chút (không đáng kể) nếu số lượng biến đầu vào tối đa cho mỗi cây bé hơn tổng số lượng biến đầu vào của dữ liệu.
4.4. Ảnh hưởng của độ lớn dữ liệu huấn luyện
Dựa trên các phân tích trên, để đánh giá ảnh hưởng của độ lớn dữ liệu huấn luyện đến mô hình, trong phần này các tham số của mô hình được lựa chọn như sau: số lượng cây ra quyết định = 100, kỹ thuật lấy mẫu có hoàn lại (sử dụng bootstrap), số lượng mẫu tối thiểu tại 1 nút = 2, số lượng mẫu tối thiểu tại một lá = 1 và số lượng biến đầu vào lớn nhất cho phép sử dụng đối với một cây ra quyết định
= số lượng biến đầu vào. Số lượng mẫu dữ liệu tập kiểm tra là 5000, còn của tập huấn luyện được thay đổi từ 1000 đến 20000. Mỗi trường hợp chương trình được chạy độc lập 10 lần. Kết quả được trình bày trong Hình 10. Có thể nhận ra rằng khi số lượng mẫu của tập huấn luyện tăng lên thì độ chính xác của mô hình đối với tập kiểm tra tăng lên. MSE tương ứng với số lượng mẫu là 5000 = 1,13E-03 bằng 44,8% so với MSE của 500 mẫu ( = 2,52E-03) và bằng 168% so với MSE của 20000 mẫu (=
6,72E-04). Rõ ràng yếu tố số lượng mẫu mang tính quyết định nhất đến độ chính xác của mô hình 118
Hùng, H. M. / Tạp chí Khoa học Công nghệ Xây dựng
huấn luyện. Tuy nhiên, việc lựa chọn nhiều số lượng mẫu sẽ làm tăng thời gian tính toán, đặc biệt là thời gian tạo ra dữ liệu đối với các bài toán sử dụng phân tích phi tuyến tính phi đàn hồi như trong bài báo này. Cụ thể, đối với 5000 mẫu thì thời gian tạo dự liệu huấn luyện là 8,3 (giờ), còn 20000 mẫu là 33,3 (giờ). Do vậy, sự lựa chọn số lượng mẫu huấn luyện cần phải được xem xét dựa trên mối quan hệ giữa hiệu quả của mô hình và thời gian tính toán.
13
lượng mẫu dữ liệu tập kiểm tra là 5000, còn của tập huấn luyện được thay đổi từ 1000 268
đến 20000. Mỗi trường hợp chương trình được chạy độc lập 10 lần. Kết quả được trình 269
bày trong Hình 10. Có thể nhận ra rằng khi số lượng mẫu của tập huấn luyện tăng lên 270
thì độ chính xác của mô hình đối với tập kiểm tra tăng lên. MSE tương ứng với số lượng 271
mẫu là 5000 = 1.13E-03 bằng 44.8% so với MSE của 500 mẫu ( = 2.52E-03) và bằng 272
168% so với MSE của 20000 mẫu ( = 6.72E-04). Rõ ràng yếu tố số lượng mẫu mang 273
tính quyết định nhất đến độ chính xác của mô hình huấn luyện. Tuy nhiên, việc lựa chọn 274
nhiều số lượng mẫu sẽ làm tăng thời gian tính toán, đặc biệt là thời gian tạo ra dữ liệu 275
đối với các bài toán sử dụng phân tích phi tuyến tính phi đàn hồi như trong bài báo này.
276
Cụ thể, đối với 5000 mẫu thì thời gian tạo dự liệu huấn luyện là 8.3 (giờ), còn 20000 277
mẫu là 33.3 (giờ). Do vậy, sự lựa chọn số lượng mẫu huấn luyện cần phải được xem xét 278
dựa trên mối quan hệ giữa hiệu quả của mô hình và thời gian tính toán.
279
280
Hình 10. Ảnh hưởng của số lượng mẫu của tập huấn luyện đến hiệu suất của mô hình 281
huấn luyện 282
5. Kết luận 283
Bài báo này giới thiệu chi tiết một chương trình ước lượng khả năng chịu tải của 284
khung thép phi tuyến sử dụng thuật toán rừng ngẫu nhiên. Thông số đầu vào của mô 285
hình huấn luyện là các tiết diện của dầm và cột với 16 đặc trưng hình học cho mỗi loại 286
tiết diện. Thông số đầu ra là hệ số khả năng chịu tải của kết cấu được xác định sử dụng 287
phân tích trực tiếp phi tuyến tính phi đàn hồi. Một khung thép không gian 6 tầng với 288
208 biến đầu vào được sử dụng để đánh giá hiệu quả của mô hình huấn luyện. Ảnh 289
hưởng của các thông số quan trọng của mô hình như số lượng cây ra quyết định, kỹ 290
thuật lấy mẫu, số lượng mẫu tối thiểu tại 1 nút và 1 lá, số lượng biến đầu vào lớn nhất 291
cho phép sử dụng đối với một cây ra quyết định và số lượng mẫu của tập huấn luyện 292
Hình 10. Ảnh hưởng của số lượng mẫu của tập huấn luyện đến hiệu suất của mô hình huấn luyện
5. Kết luận
Bài báo này giới thiệu chi tiết một chương trình ước lượng khả năng chịu tải của khung thép phi tuyến sử dụng thuật toán rừng ngẫu nhiên. Thông số đầu vào của mô hình huấn luyện là các tiết diện của dầm và cột với 16 đặc trưng hình học cho mỗi loại tiết diện. Thông số đầu ra là hệ số khả năng chịu tải của kết cấu được xác định sử dụng phân tích trực tiếp phi tuyến tính phi đàn hồi. Một khung thép không gian 6 tầng với 208 biến đầu vào được sử dụng để đánh giá hiệu quả của mô hình huấn luyện. Ảnh hưởng của các thông số quan trọng của mô hình như số lượng cây ra quyết định, kỹ thuật lấy mẫu, số lượng mẫu tối thiểu tại 1 nút và 1 lá, số lượng biến đầu vào lớn nhất cho phép sử dụng đối với một cây ra quyết định và số lượng mẫu của tập huấn luyện đến mô hình huấn luyện được phân tích, đánh giá. Kết quả thu được cho thấy, số lượng cây ra quyết định nên sử dụng≥100; Đối với bài toán hồi quy, cây ra quyết định nên được phân chia đến độ sâu tối đa; và độ chính xác của mô hình tăng lên khi số lượng mẫu huấn luyện tăng lên nhưng cần xem xét dựa trên tương quan giữa hiệu quả mang lại về mặt kết quả và thời gian tính toán.
Tài liệu tham khảo
[1] Thai, H.-T., Kim, S.-E. (2011). Nonlinear inelastic analysis of space frames. Journal of Constructional Steel Research, 67(4):585–592.
[2] Kim, S.-E., Choi, S.-H. (2001). Practical advanced analysis for semi-rigid space frames. International Journal of Solids and Structures, 38(50-51):9111–9131.
[3] ANSI/AISC 360-10 (2010).Specification for structural steel buildings. Chicago (IL): American Institute of Steel Construction.
[4] Ha, M.-H., Vu, Q.-V., Truong, V.-H. (2020).Optimization of nonlinear inelastic steel frames considering panel zones.Advances in Engineering Software, 142:102771.
[5] Ha, M.-H., Vu, Q.-A., Truong, V.-H. (2018). Optimum Design of Stay Cables of Steel Cable-stayed Bridges Using Nonlinear Inelastic Analysis and Genetic Algorithm.Structures, 16:288–302.
Hùng, H. M. / Tạp chí Khoa học Công nghệ Xây dựng
[6] Kim, S.-E., Truong, V.-H. (2020). Reliability Evaluation of Semirigid Steel Frames Using Advanced Analysis.Journal of Structural Engineering, 146(5):04020064.
[7] Hung, T. V., Viet, V. Q., Thuat, D. V. (2019). A deep learning-based procedure for estimation of ulti- mate load carrying of steel trusses using advanced analysis. Journal of Science and Technology in Civil Engineering (STCE) - NUCE, 13(3):113–123.
[8] Truong, V.-H., Vu, Q.-V., Thai, H.-T., Ha, M.-H. (2020). A robust method for safety evaluation of steel trusses using Gradient Tree Boosting algorithm.Advances in Engineering Software, 147:102825.
[9] Vu, Q.-V., Truong, V.-H., Thai, H.-T. (2021).Machine learning-based prediction of CFST columns using gradient tree boosting algorithm.Composite Structures, 259:113505.
[10] Hùng, H. M., Hùng, T. V., Thuật, Đ. V., Việt, V. Q. (2020). Phương pháp xử lý hiện tượng mô hình quá khớp trong xây dựng mô hình học sâu để ước lượng khả năng chịu tải của giàn phi tuyến. Tạp chí Khoa học Công nghệ Xây dựng (KHCNXD)-ĐHXD, 14(1V):12–20.
[11] Yang, I.-T., Hsieh, Y.-H. (2012).Reliability-based design optimization with cooperation between support vector machine and particle swarm optimization. Engineering with Computers, 29(2):151–163.
[12] Chen, W., Xu, C., Shi, Y., Ma, J., Lu, S. (2019). A hybrid Kriging-based reliability method for small failure probabilities.Reliability Engineering & System Safety, 189:31–41.
[13] Gholizadeh, S. (2015). Performance-based optimum seismic design of steel structures by a modified firefly algorithm and a new neural network.Advances in Engineering Software, 81:50–65.
[14] Oh, C. K., Beck, J. L., Yamada, M. (2008).Bayesian Learning Using Automatic Relevance Determination Prior with an Application to Earthquake Early Warning. Journal of Engineering Mechanics, 134(12):
1013–1020.
[15] Hasni, H., Alavi, A. H., Lajnef, N., Abdelbarr, M., Masri, S. F., Chakrabartty, S. (2017). Self-powered piezo-floating-gate sensors for health monitoring of steel plates.Engineering Structures, 148:584–601.
[16] Liaw, A., Wiener, M. (2002). Classification and regression by randomForest. R news, 2(3):18–22.
[17] Hapfelmeier, A., Ulm, K. (2013). A new variable selection approach using Random Forests. Computa- tional Statistics & Data Analysis, 60:50–69.
[18] Breiman, L. (2001). Random forests. Machine Learning, 45(1):5–32.
[19] Breiman, L. (1999). Random forests-random features. Technical Report 567, Statistics Department.
University of California, Berkeley.
[20] Pal, M., Mather, P. M. (2003).An assessment of the effectiveness of decision tree methods for land cover classification.Remote Sensing of Environment, 86(4):554–565.
[21] Feller, W. (1968). An introduction to probability theory and its applications, volume 1. 3rd edition, John Wiley & Sons.
120