ng d ng thu t toán “r ng ng u nhiên” cho phân tích hi qui kh

(1)

Tạp chí Khoa học Công nghệ Xây dựng, NUCE 2021. 15 (2V): 110–120

ỨNG DỤNG THUẬT TOÁN “RỪNG NGẪU NHIÊN”

CHO PHÂN TÍCH HỒI QUI KHẢ NĂNG CHỊU TẢI CỦA KHUNG THÉP PHI TUYẾN

Hà Mạnh Hùng^a,∗

aKhoa Xây dựng dân dụng và Công nghiệp, Trường Đại học Xây dựng, 55 đường Giải Phóng, quận Hai Bà Trưng, Hà Nội, Việt Nam Nhận ngày 11/04/2021, Sửa xong 06/05/2021, Chấp nhận đăng 07/05/2021

Tóm tắt

Các bài toán thiết kế công trình phức tạp như thiết kế tối ưu hay tính toán độ tin cậy tiêu tốn thời gian rất lớn đặc biệt là trong trường hợp sử dụng các phân tích phi tuyến. Vấn đề này có thể được giải quyết bằng cách sử dụng các mô hình dự báo như sử dụng các thuật toán máy học nhằm dự đoán ứng xử của công trình. Thuật toán

“rừng ngẫu nhiên” được xem là một trong những thuật toán máy học tốt nhất hiện nay nhờ sự ứng dụng hiệu quả của nó trong nhiều lĩnh vực nghiên cứu đối với cả bài toán phân tích hồi qui và phân loại. Trong bài báo này, tác giả giới thiệu một phương pháp dựa trên thuật toán “rừng ngẫu nhiên” để phân tích hồi quy khả năng chịu tải của khung thép. Phân tích trực tiếp được sử dụng để xác định khả năng chịu tải của khung thép. Các thông số đầu vào của mô hình là các đặc trưng về tiết diện của phần tử khung và đặc tính vật liệu. Một khung thép không gian 6 tầng được sử dụng làm ví dụ để đánh giá hiệu quả của mô hình. Kết quả thu được cho thấy, số lượng cây ra quyết định nên sử dụng≥100; Đối với bài toán hồi quy, cây ra quyết định nên được phân chia đến độ sâu tối đa; Và, độ chính xác của mô hình tăng lên khi số lượng mẫu huấn luyện tăng lên nhưng cần xem xét dựa trên tương quan giữa hiện quả mang lại về mặt kết quả và thời gian tính toán.

Từ khoá: rừng ngẫu nhiên; máy học; phân tích trực tiếp; khung thép; phi tuyến.

RANDOM FOREST-BASED METHOD FOR REGRESSION OF LOAD-CARRYING CAPACITY OF NON- LINEAR STEEL FRAMES

Abstract

Complex structural design problems such as optimal design or reliability calculation take excessive computa- tional efforts, especially in the case of using nonlinear analyzes. This problem can be solved by using meta- models such as using machine learning algorithms to predict building responses. The random forest has been considered as one of the most robust Machine Learning techniques since it has been successfully applied for both regression and classification problems in many fields. In this paper, we develop a random forest-based method for regression and classification of the load-carrying capacity of steel frames. Direct analysis is used to estimate the load-carrying capacity of this frame. The input variables are the information of cross-sections of structural members and material. A six-story space frame is studied to demonstrate the efficiency of the proposed method. The obtained results show that the number of decision-making trees should be greater than 100; For regression problems, decision trees should be divided up to maximum depth; And, the accuracy of the model increases when the number of trained samples increases but it should be considered based on the correlation between the results in terms of efficiency and calculation time.

Keywords: random forest; machine learning; direct analysis; steel frame; nonlinear.

∗Tác giả đại diện.Địa chỉ e-mail:[email protected](Hùng, H. M.)

110

(2)

1. Giới thiệu

Phân tích kết cấu công trình đòi hỏi phản ánh càng sát ứng xử thực tế của công trình càng tốt.

Chính vì vậy, các phương pháp phân tích hiện đại dựa trên phân tích trực tiếp ngày càng được sử dụng rộng rãi, đặc biệt là đối với kết cấu thép [1, 2]. Phân tích trực tiếp cũng được chấp nhận trong các phiên bản mới của các tiêu chuẩn AISC LRFD [3]. Ưu điểm của các phương pháp phân tích trực tiếp là chúng có khả năng mô tả ứng xử của cả hệ thống kết cấu công trình khi chịu tải trọng, đặc biệt là sự thay đổi của công trình khi tải trọng thay đổi. Qua đó, khả năng chịu tải của toàn bộ hệ thống công trình sẽ được xác định. Tính an toàn của công trình sẽ được đánh giá một cách đơn giản thông qua việc so sánh khả năng chịu tải của công trình không được nhỏ hơn áp lực do tải trọng gây ra [1,2].

Tuy nhiên, các phân tích trực tiếp thường rất tốn thời gian. Do vậy, ứng dụng của chúng còn hạn chế, đặc biệt là đối với các bài toán đòi hỏi phải có nhiều lần phân tích kết cấu như là bài toán tối ưu hay tính toán độ tin cậy của công trình [4–6]. Để giảm bớt số lượng phân tích kết cấu trong các bài toán này, một cách tiếp cận gần đúng sử dụng các mô hình thuật toán máy học (Machine learning) (ML) đang thu hút được sự quan tâm nghiên cứu trong thời gian gần đây [7,8].

Nói một cách tổng quát, các thuật toán ML trang bị cho máy tính khả năng tự động hiểu, phân tích, xử lý và học hỏi từ thông tin/dữ liệu đầu vào và từ đó để thực hiện các nhiệm vụ được giao.

Dựa trên đặc điểm này, thuật toán máy học có thể được sử dụng để huấn luyện máy tính có khả năng ước lượng ứng xử của kết cấu công trình dựa trên các thông tin đầu vào của kết cấu ví dụ như: kích thước, đặc điểm vật liệu, đặc điểm tải trọng, v.v. Một số nghiên cứu nổi bật về việc ứng dụng các thuật toán ML vào đánh giá ứng xử của kết cấu có thể kể đến ở đây như sau. Vũ và cs. [9] đã ứng dụng thuật toán Gradient Tree Boosting (GTB) để ước lượng khả năng chịu tải của cọc ống thép nhồi bê tông (CFST). Hùng và cs. [10] trình bày các xử lý hiện tượng quá khớp trong mô hình học sâu (Deep Learning) (DL) cho giàn thép phi tuyến. Ứng dụng các thuật toán ML để tính độ tin cậy của công trình cũng được nhiều nhà khoa học quan tâm nghiên cứu như: Yang và Hsieh [11] sử dụng Support Vector Machine (SVM), Chen và cs. [12] sử dụng Kriging, Gholizadeh [13] sử dụng mạng nơ-ron lan truyền ngược (back-propagation neural network), v.v. Bên cạnh đó, việc đánh giá/nhận diện hư hỏng của công trình bằng các thuật toán ML cũng thu được áp dụng ngày càng nhiều. Ví dụ như Oh và cs.

[14] sử dụng Bayesian để phân loại các trạng thái hư hỏng của công trình chịu động đất. Hasni và cs.

[15] sử dụng SVM để theo dõi sức khỏe công trình thép.

Trong việc ứng dụng thuật toán ML vào các bài toán thiết kế công trình, sự hiệu quả phụ thuộc rất nhiều yếu tố, trong đó có 2 yếu tố cơ bản cần lưu ý như sau. Thứ nhất, không có một thuật toán nào được xem là vượt trội hơn cả mà tùy thuộc vào lớp bài toán hay cụ thể hơn là đặc điểm của bài toán thiết kế. Do vậy, sự nghiên cứu và ứng dụng các thuật toán ML mới luôn là hết sức cần thiết nhằm tối ưu hóa trong công việc. Thứ hai, tính hiệu quả của mỗi thuật toán ML ảnh hưởng khá nhiều bởi việc lựa chọn các giá trị tham số hệ thống mà số lượng tham số hệ thống của mỗi thuật toán lại khá nhiều.

Cho nên, đối với mỗi lớp bài toán cụ thể, chúng ta cần thực hiện các phân tích, đánh giá nhằm tìm ra cách sử dụng các tham số là hiệu quả nhất cho mô hình huấn luyện.

Dựa trên quan điểm đó, trong bài báo này, tác giả trình bày chi tiết cách xây dựng mô hình huấn luyện cho bài toán ước lượng khả năng chịu tải của khung thép phi tuyến sử dụng thuật toán rừng ngẫu nhiên (Random Forest) (RF). Thuật toán rừng ngẫu nhiên được lựa chọn dựa trên sự hiệu quả, mạnh mẽ của nó trong việc giải quyết các bài toán phân tích hồi qui và phân loại [16,17]. Thêm vào đó, chưa có nghiên cứu cụ thể nào trình bày sự áp dụng thuật toán này vào bài toán ước lượng khả năng chịu tải của khung thép phi tuyến. Một khung thép không gian 6 tầng được sử dụng để minh họa cho cách thiết lập mô hình huấn luyện sử dụng RF. Ảnh hưởng của các tham số hệ thống của RF đến hiệu quả của mô hình cũng được tiến hành phân tích nhằm đưa ra các đề xuất lựa chọn giá trị tham số

(3)

Hùng, H. M. / Tạp chí Khoa học Công nghệ Xây dựng

hợp lý.

2. Thuật toán rừng ngẫu nhiên

RF được giới thiệu lần đầu tiên bởi Breiman vào năm 2001 [18]. Nó là một phương pháp phân loại và hồi quy theo phương thức học có kiểm soát, bao gồm sự kết hợp nhiều cây dự báo/cây ra quyết định. Mỗi cây ra quyết định được tạo ra dựa trên một tập mẫu huấn luyện ngẫu nhiên được tạo ra từ tập mẫu huấn luyện ban đầu với cùng độ lớn theo nguyên tắc lấy mẫu có hoàn lại (phương pháp Bootstrap) nghĩa là một mẫu có thể được lấy nhiều lần. Các cây ra quyết định dựa trên tập mẫu vừa tạo ra với nguyên tắc chỉ sử dụng một số lượng biến đầu vào tại mỗi nút phân chia. Kết quả cuối cùng là giá trị trung bình kết quả thu được từ tất cả các cây ra quyết định. Bằng cách sử dụng thật nhiều cây ra quyết định, sai số ước lượng của mô hình sẽ được giảm đi đáng kể. Nguyên lý của thuật toán được tóm tắt trong Hình1.

Tạp chí Khoa học Công nghệ Xây dựng, NUCE2020 p-ISSN 2615-9058; e-ISSN 2734-9489

4 106

Hình 1. Thuật toán rừng ngẫu nhiên 107

Trong bài toán hồi quy, các cây dự báo sẽ nhận các giá trị số cụ thể thay vì kỹ 108

thuật phân loại (ra quyết định) [19]. Trong thiết kế các cây ra quyết định của phân tích 109

hồi quy, các cây được cho phép phát triển đến độ sâu tối đa của dữ liệu huấn luyện mà 110

không tiến hành giản lược lại (ngắt cành). Đây cũng là một ưu điểm chính của thuật 111

toán này bởi vì việc thực hiện giản lược cây là một yếu tố chính ảnh hưởng đến hiệu 112

suất của mô hình [20]. Breiman [19] cũng cho rằng khi số lượng cây tăng lên, sai số 113

tổng quát luôn hội tụ ngay cả khi không giản lược cây, và việc xử lý hiện tượng mô hình 114

quá khớp được thực hiện dựa trên nguyên tắc luật số lớn (Strong Law of Large 115

Numbers) [21]. Số lượng biến được sử dụng (N) tại mỗi nút để tạo ra một cây ra quyết 116

định và số lượng cây ra quyết định (k) được sử dụng là hai tham số do người dùng lựa 117

chọn trước [19].

118

Dựa trên trình bày trên đây, chúng ta rút ra được các thông số quan trọng có thể 119

ảnh hưởng đến hiệu suất của mô hình rừng ngẫu nhiên là: (1) số lượng cây ra quyết định 120

được sử dụng; (2) kỹ thuật lấy mẫu (sử dụng hay không sử dụng kỹ thuật bootstrap);

121

(3) số lượng biến được sử dụng tại mỗi nút; (4) đặc điểm của tập dữ liệu bao gồm thông 122

số đầu vào và thông số đầu ra của mô hình.

123

3. Xây dựng thuật toán sử dụng rừng ngẫu nhiên để ước lượng khả năng chịu tải 124

của khung thép 125

3.1. Khả năng chịu tải của khung thép 126

Trong các phương pháp phân tích trực tiếp, sự an toàn của kết cấu được đánh giá 127

thông qua việc so sánh khả năng chịu tải của toàn bộ hệ thống với tải trọng tác dụng lên 128

công trình. Nếu khả năng chịu tải lớn hơn tải trọng tác dụng thì ta có công trình an toàn, 129

ngược lại thì công trình sẽ mất an toàn. Để chuẩn hóa tính chất này, thay vì sử dụng 130

Hình 1. Thuật toán rừng ngẫu nhiên

Trong bài toán hồi quy, các cây dự báo sẽ nhận các giá trị số cụ thể thay vì kỹ thuật phân loại (ra quyết định) [19]. Trong thiết kế các cây ra quyết định của phân tích hồi quy, các cây được cho phép phát triển đến độ sâu tối đa của dữ liệu huấn luyện mà không tiến hành giản lược lại (ngắt cành). Đây cũng là một ưu điểm chính của thuật toán này bởi vì việc thực hiện giản lược cây là một yếu tố chính ảnh hưởng đến hiệu suất của mô hình [20]. Breiman [19] cũng cho rằng khi số lượng cây tăng lên, sai số tổng quát luôn hội tụ ngay cả khi không giản lược cây, và việc xử lý hiện tượng mô hình quá khớp được thực hiện dựa trên nguyên tắc luật số lớn (Strong Law of Large Numbers) [21]. Số lượng biến được sử dụng (N) tại mỗi nút để tạo ra một cây ra quyết định và số lượng cây ra quyết định (k) được sử dụng là hai tham số do người dùng lựa chọn trước [19].

Dựa trên trình bày trên đây, chúng ta rút ra được các thông số quan trọng có thể ảnh hưởng đến hiệu suất của mô hình rừng ngẫu nhiên là: (1) số lượng cây ra quyết định được sử dụng; (2) kỹ thuật lấy mẫu (sử dụng hay không sử dụng kỹ thuật bootstrap); (3) số lượng biến được sử dụng tại mỗi nút;

(4) đặc điểm của tập dữ liệu bao gồm thông số đầu vào và thông số đầu ra của mô hình.

112

(4)

3. Xây dựng thuật toán sử dụng rừng ngẫu nhiên để ước lượng khả năng chịu tải của khung thép

3.1. Khả năng chịu tải của khung thép

Trong các phương pháp phân tích trực tiếp, sự an toàn của kết cấu được đánh giá thông qua việc so sánh khả năng chịu tải của toàn bộ hệ thống với tải trọng tác dụng lên công trình. Nếu khả năng chịu tải lớn hơn tải trọng tác dụng thì ta có công trình an toàn, ngược lại thì công trình sẽ mất an toàn.

Để chuẩn hóa tính chất này, thay vì sử dụng khái niệm khả năng chịu tải của kết cấu, chúng ta có thể sử dụng thông số “hệ số khả năng chịu tải của kết cấu” (LF) được định nghĩa là tỉ lệ giữa khả năng chịu tải của công trình (R) và hiệu ứng do tải trọng gây ra (S):

LF= R

S (1)

Lúc này kết cấu được xem là an toàn nếu LF ≥ 1và ngược lại. Trong nghiên cứu này, LF của khung thép được tính toán dựa trên phân tích phi tuyến tính phi đàn hồi trình bày trong tài liệu [1].

3.2. Xây dựng tập dữ liệu huấn luyện

Xây dựng tập dữ liệu luôn là bước đầu tiên và quan trọng nhất cho việc xây dựng mô hình huấn luyện. Để việc nắm bắt cách thức xây dựng dữ liệu cho bài toán ước lượng khả năng chịu tải củaTạp chí Khoa học Công nghệ Xây dựng, NUCE2020 p-ISSN 2615-9058; e-ISSN 2734-9489

148

Hình 2. Khung thép không gian 6 tầng 149

Một tập dữ liệu gồm 20000 dữ liệu được tạo ra bằng cách tổ hợp ngẫu nhiên các 150

tiết diện dầm và cột khác nhau. Phần mềm phân tích phi tuyến PAAP [1] được sử dụng 151

để tạo mẫu. Với một bộ thông số tiết diện của dầm cột, phần mềm phân tích kết cấu phi 152

tuyến tính phi đàn hồi được thực hiện để thu được LFtương ứng. Hình 3 thể hiện sự 153

Hình 2. Khung thép không gian 6 tầng 113

(5)

khung thép, một ví dụ khung thép không gian 6 tầng như trong Hình 2được sử dụng để minh họa trực tiếp. Trong khung, các dầm và cột được chia thành 13 nhóm tiết diện khác nhau như trên Hình2.

Các cột được thiết kế sử dụng tiết diện W12 và W14, và các dầm được thiết kế sử dụng tiết diện W10, W12, W14 và W16. Vật liệu thép là A992 với mô-đun đàn hồi bằng 200 (Gpa) và cường độ chảy bằng 345 (Mpa). Tải trọng gió tác dụng theo phương Y tại các nút khung có giá trị là 20 kN. Tải trọng thẳng đứng phân bố trên các dầm bằng 5,5 kN/m.

7

phân bố giá trị LFcủa 20000 dữ liệu được tạo ra. Dựa vào hình chúng ta thấy, LFcủa 154

khung nằm chủ yếu trong khoảng giá trị từ (0.5 – 4.0). Tỉ lệ LF< 1 chiếm khoảng 29%.

155

LFđược lựa chọn là thông số đầu ra của mô hình huấn luyện. Thông số đầu vào của mô 156

hình là các đặc trưng của tiết diện dầm và cột. Đối với bài toán khung, rất nhiều đặc 157

trưng của tiết diện có thể ảnh hưởng đến ứng xử của kết cấu. Do vậy, để độ chính xác 158

của mô hình càng cao, càng nhiều đặc tính của tiết diện được xét đến trong mô hình 159

huấn luyện càng tốt. Trong nghiên cứu này, 16 loại đặc tính của tiết diện được trình bày 160

trong Bảng 1 được sử dụng như biến đầu vào của mô hình do chúng có ảnh hưởng lớn 161

trong chương trình phân tích phi tuyến tính phi đàn hồi được sử dụng. Với 13 nhóm tiết 162

diện của khung, chúng ta sẽ có tổng cộng là 208 biến đầu vào.

163

164

Hình 3. Phân bố giá trị của LF của tập dữ liệu 165

Bảng 1. Đặc trưng hình học của tiết diện được xem xét như biến đầu vào 166

Đặc trưng của tiết diện 1

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Hệ số cong vênh

Bán kính hồi chuyển đối với trục yếu Mô men tĩnh đối với trục y

Mô men tĩnh đối với trục z Hệ số xoắn

Mô men quán tính đối với trục y Mô men quán tính đối với trục z Diện tích tiết diện

Diện tích miền cắt để tính cắt dọc theo trục y Diện tích miền cắt để tính cắt dọc theo trục z Mô men quán tính dẻo đối với trục y Mô men quán tính dẻo đối với trục z Chiều cao tiết diện

Chiều rộng bản cánh Chiều dày bản cánh Chiều dày vách

Hình 3. Phân bố giá trị của LF của tập dữ liệu

Bảng 1. Đặc trưng hình học của tiết diện được xem xét như biến đầu vào

Đặc trưng của tiết diện

1 Hệ số cong vênh

2 Bán kính hồi chuyển đối với trục yếu

3 Mô men tĩnh đối với trụcy

4 Mô men tĩnh đối với trụcz

5 Hệ số xoắn

6 Mô men quán tính đối với trụcy

7 Mô men quán tính đối với trụcz

8 Diện tích tiết diện

9 Diện tích miền cắt để tính cắt dọc theo trụcy 10 Diện tích miền cắt để tính cắt dọc theo trụcz

11 Mô men quán tính dẻo đối với trụcy

12 Mô men quán tính dẻo đối với trụcz

13 Chiều cao tiết diện

14 Chiều rộng bản cánh

15 Chiều dày bản cánh

16 Chiều dày vách

Một tập dữ liệu gồm 20000 dữ liệu được tạo ra bằng cách tổ hợp ngẫu nhiên các tiết diện dầm và cột khác nhau. Phần mềm phân tích phi tuyến PAAP [1] được sử dụng để tạo mẫu. Với một bộ thông số tiết diện của dầm cột, phần mềm phân tích kết cấu phi tuyến tính phi đàn hồi được thực hiện để thu đượcLF tương ứng. Hình3thể hiện sự phân bố giá trịLF của 20000 dữ liệu được tạo ra. Dựa vào

114

(6)

hình chúng ta thấy,LFcủa khung nằm chủ yếu trong khoảng giá trị từ (0,5 – 4,0). Tỉ lệLF< 1 chiếm khoảng 29%.LFđược lựa chọn là thông số đầu ra của mô hình huấn luyện. Thông số đầu vào của mô hình là các đặc trưng của tiết diện dầm và cột. Đối với bài toán khung, rất nhiều đặc trưng của tiết diện có thể ảnh hưởng đến ứng xử của kết cấu. Do vậy, để độ chính xác của mô hình càng cao, càng nhiều đặc tính của tiết diện được xét đến trong mô hình huấn luyện càng tốt. Trong nghiên cứu này, 16 loại đặc tính của tiết diện được trình bày trong Bảng1được sử dụng như biến đầu vào của mô hình do chúng có ảnh hưởng lớn trong chương trình phân tích phi tuyến tính phi đàn hồi được sử dụng. Với 13 nhóm tiết diện của khung, chúng ta sẽ có tổng cộng là 208 biến đầu vào.

3.3. Xây dựng mô hình huấn luyện

Trình tự các bước xây dựng mô hình huấn luyện sử dụng thuật toán rừng ngẫu nhiên như sau:

Bước 1: Xây dựng bài toán. Trong bước này chúng ta cần xây dựng được tập dữ liệu, xác định được các biến đầu vào và biến đầu ra của mô hình huấn luyện. Đây chính là nội dung đã được trình bày chi tiết trong phần 3.2.

Bước 2: Phân chia tập dữ liệu và chuẩn hóa dữ liệu. Tập dữ liệu ban đầu sẽ được phân chia thành 2 tập riêng biệt: (1) tập huấn luyện được sử dụng cho quá trình huấn luyện mô hình và (2) tập kiểm tra được sử dụng để đánh giá hiệu quả của mô hình. Đối với các tập dữ liệu có giá trị của các thông số đầu vào khác nhau quá nhiều, các dữ liệu thường được chuẩn hóa bằng cách đưa về trong khoảng [0, 1] nhằm việc huấn luyện đạt hiệu quả cao hơn. Công thức để chuẩn hóa được sử dụng như sau:

x⁰_i = xi

[xi] (2)

trong đó[xi]là giá trị lớn nhất của biến đầu vàox_i.

Bước 3: Xây dựng mô hình huấn luyện. Một số tham số chính của mô hình như sau:

- Hàm mất mát (loss function): Hàm mất mát được hiểu là hàm mục tiêu sẽ được tối thiểu hóa trong quá trình huấn luyện của mô hình. Đối với bài toán phân tích hồi quy, các dạng hàm mất mát thường dùng: “sai số toàn phương trung bình” (mean-squared-error) (MSE), “sai số tuyệt đối trung bình” (mean-absolute-error) (MAE). Trong nghiên cứu này, hàm MSE được sử dụng.

- Số lượng cây ra quyết định (n_estimators): đây là một tham số có ảnh hưởng rất lớn đến độ chính xác cùa mô hình. Vai trò của cây ra quyết định đã được trình bày và phân tích trong phần 2.

- Kỹ thuật lấy mẫu: có 2 kỹ thuật cơ bản là: (1) lấy mẫu có hoàn lại (phương pháp Bootstrap) và (2) toàn bộ mẫu được sử dụng để xây dựng mỗi cây ra quyết định.

Bước 4: Huấn luyện mô hình. Đây là dạng huấn luyện có kiểm soát trên tập huấn luyện. Hiệu suất của mô hình được đánh giá dựa vào tập kiểm tra. Mô hình thu được được sử dụng để ước lượng hệ số khả năng chịu tải của khung thép.

4. Kết quả

Trong phần này, chúng ta lần lượt đánh giá ảnh hưởng của các thông số mô hình đến hiệu suất làm việc của mô hình rừng ngẫu nhiên. Từ đó, các khuyến nghị được đưa nhà nhằm giúp người đọc có thể lựa chọn hiệu quả hơn khi áp dụng thuật toán này vào trong công việc của mình. Ngôn ngữ lập trình Python cùng thư viện Sklearn được sử dụng để mô hình hóa mô hình huấn luyện rừng ngẫu nhiên.

(7)

4.1. Ảnh hưởng của số lượng cây ra quyết định

Trong phân tích đầu tiên về ảnh hưởng của số lượng cây ra quyết định đến mô hình huấn luyện rừng ngẫu nhiên, số lượng mẫu dữ liệu cho tập huấn luyện và tập kiểm tra được lấy bằng 5000, kỹ thuật lấy mẫu là kỹ thuật lấy mẫu có hoàn lại (sử dụng bootstrap), số lượng cây ra quyết định được thay đổi từ 1 đến 1000. Dạng hàm mất mát được sử dụng là MSE. Để giảm ảnh hưởng của tính ngẫu nhiên đến kết quả tính toán, tương ứng với mỗi trường hợp chương trình được chạy độc lập 10 lần. Kết quả tính toán được thể hiện trong Hình4. Ta có thể thấy rằng khi số lượng cây ra quyết định tăng lên, giá trị hàm mất mát của cả tập huấn luyện và tập kiểm tra đều giảm đi, tức mô hình huấn luyện càng tốt lên. Khi số lượng cây ra quyết định được sử dụng≥100, giá trị hàm mất mát của 2 tập dữ liệu hầu như không thay đổi nữa (đã hội tụ). Do vậy, số lượng cây ra quyết định nên được sử dụng với giá trị đủ lớn và khuyến nghị là≥100.

9

dụng để mô hình hóa mô hình huấn luyện rừng ngẫu nhiên.

200

4.1. Ảnh hưởng của số lượng cây ra quyết định 201

Trong phân tích đầu tiên về ảnh hưởng của số lượng cây ra quyết định đến mô 202

hình huấn luyện rừng ngẫu nhiên, số lượng mẫu dữ liệu cho tập huấn luyện và tập kiểm 203

tra được lấy bằng 5000, kỹ thuật lấy mẫu là kỹ thuật lấy mẫu có hoàn lại (sử dụng 204

bootstrap), số lượng cây ra quyết định được thay đổi từ 1 đến 1000. Dạng hàm mất mát 205

được sử dụng là MSE. Để giảm ảnh hưởng của tính ngẫu nhiên đến kết quả tính toán, 206

tương ứng với mỗi trường hợp chương trình được chạy độc lập 10 lần. Kết quả tính toán 207

được thể hiện trong Hình 4. Ta có thể thấy rằng khi số lượng cây ra quyết định tăng lên, 208

giá trị hàm mất mát của cả tập huấn luyện và tập kiểm tra đều giảm đi, tức mô hình huấn 209

luyện càng tốt lên. Khi số lượng cây ra quyết định được sử dụng ≥ 100, giá trị hàm mất 210

mát của 2 tập dữ liệu hầu như không thay đổi nữa (đã hội tụ). Do vậy, số lượng cây ra 211

quyết định nên được sử dụng với giá trị đủ lớn và khuyến nghị là ≥ 100.

212

213

Hình 4. Ảnh hưởng của số cây ra quyết định đến hiệu suất của mô hình huấn luyện 214

Để làm rõ hơn hiệu quả của thuật toán RF, Hình 5 trình bày so sánh giá trị hàm 215

mất mát của thuật toán RF với 2 thuật toán khác là thuật toán cây ra quyết định (DT) và 216

thuật toán SVM. Lưu ý rằng kết quả trình bày trong hình là cho tập kiểm tra với số 217

lượng mẫu trong tập kiểm tra được cố định là 5000. Số lượng mẫu trong tập huấn luyện 218

được thay đổi từ 500 đến 20000 mẫu. Kết quả cho thấy rằng thuật toán RF cho giá trị 219

hàm mất mát thấp hơn khá nhiều so với DT và SVM. Điều này có nghĩa là RF hiệu quả 220

và mạnh hơn trong trường hợp nghiên cứu này.

221

Hình 4. Ảnh hưởng của số cây ra quyết định đến hiệu suất của mô hình huấn luyện

Để làm rõ hơn hiệu quả của thuật toán RF, Hình5trình bày so sánh giá trị hàm mất mát của thuật toán RF với 2 thuật toán khác là thuật toán cây ra quyết định (DT) và thuật toán SVM. Lưu ý rằng kết quả trình bày trong hình là cho tập kiểm tra với số lượng mẫu trong tập kiểm tra được cố định là 5000. Số lượng mẫu trong tập huấn luyện được thay đổi từ 500 đến 20000 mẫu. Kết quả cho thấy rằng thuật toán RF cho giá trị hàm mất mát thấp hơn khá nhiều so với DT và SVM. Điều này có nghĩa là RF hiệu quả và mạnh hơn trong trường hợp nghiên cứu này.Tạp chí Khoa học Công nghệ Xây dựng, NUCE2020 p-ISSN 2615-9058; e-ISSN 2734-9489

10 222

Hình 5. So sánh hiệu quả của các thuật toán máy học 223

4.2. Ảnh hưởng của kỹ thuật lấy mẫu 224

Hình 4 trong phần 4.1 cũng thể hiện kết quả của kỹ thuật lấy mẫu có hoàn lại đến 225

hiệu suất của mô hình. Để đánh giá kỹ hơn, chúng ta tiếp tục xem xét ảnh hưởng của kỹ 226

thuật lấy mẫu thông thường (không sử dụng bootstrap) đến hiệu suất mô hình huấn 227

luyện. Điều này có nghĩa là tất cả dữ liệu được sử dụng trong mỗi cây ra quyết định.

228

Kết quả tính toán được thể hiện trong Hình 6. Ta có thể thấy rằng giá trị hàm mất mát 229

của cả tập huấn luyện và tập kiểm tra không thay đổi khi số lượng cây ra quyết định 230

tăng lên, tương ứng bằng 4.15E-05 và 2.5E-03. Đồng thời, giá trị hàm mất mát đối với 231

tập kiểm tra trong trường hợp sử dụng kỹ thuật lấy mẫu thông thường kém hơn rất nhiều 232

so với khi sử dụng kỹ thuật lấy mẫu có hoàn lại được trình bày trong Hình 4 (bằng 1.1E- 233

03). Điều này có nghĩa là kỹ thuật lấy mẫu có hoàn lại nên được sử dụng trong thuật 234

toán ngẫu nhiên.

235

236

Hình 5. So sánh hiệu quả của các thuật toán máy học

116

(8)

4.2. Ảnh hưởng của kỹ thuật lấy mẫu

Hình4trong phần 4.1 cũng thể hiện kết quả của kỹ thuật lấy mẫu có hoàn lại đến hiệu suất của mô hình. Để đánh giá kỹ hơn, chúng ta tiếp tục xem xét ảnh hưởng của kỹ thuật lấy mẫu thông thường (không sử dụng bootstrap) đến hiệu suất mô hình huấn luyện. Điều này có nghĩa là tất cả dữ liệu được sử dụng trong mỗi cây ra quyết định. Kết quả tính toán được thể hiện trong Hình6. Ta có thể thấy rằng giá trị hàm mất mát của cả tập huấn luyện và tập kiểm tra không thay đổi khi số lượng cây ra quyết định tăng lên, tương ứng bằng 4,15E-05 và 2,5E-03. Đồng thời, giá trị hàm mất mát đối với tập kiểm tra trong trường hợp sử dụng kỹ thuật lấy mẫu thông thường kém hơn rất nhiều so với khi sử dụng kỹ thuật lấy mẫu có hoàn lại được trình bày trong Hình4(bằng 1,1E-03). Điều này có nghĩa là kỹ thuật lấy mẫu có hoàn lại nên được sử dụng trong thuật toán ngẫu nhiên.

10 222

Hình 5. So sánh hiệu quả của các thuật toán máy học 223

4.2. Ảnh hưởng của kỹ thuật lấy mẫu 224

Hình 4 trong phần 4.1 cũng thể hiện kết quả của kỹ thuật lấy mẫu có hoàn lại đến 225

hiệu suất của mô hình. Để đánh giá kỹ hơn, chúng ta tiếp tục xem xét ảnh hưởng của kỹ 226

thuật lấy mẫu thông thường (không sử dụng bootstrap) đến hiệu suất mô hình huấn 227

luyện. Điều này có nghĩa là tất cả dữ liệu được sử dụng trong mỗi cây ra quyết định.

228

Kết quả tính toán được thể hiện trong Hình 6. Ta có thể thấy rằng giá trị hàm mất mát 229

của cả tập huấn luyện và tập kiểm tra không thay đổi khi số lượng cây ra quyết định 230

tăng lên, tương ứng bằng 4.15E-05 và 2.5E-03. Đồng thời, giá trị hàm mất mát đối với 231

tập kiểm tra trong trường hợp sử dụng kỹ thuật lấy mẫu thông thường kém hơn rất nhiều 232

so với khi sử dụng kỹ thuật lấy mẫu có hoàn lại được trình bày trong Hình 4 (bằng 1.1E- 233

03). Điều này có nghĩa là kỹ thuật lấy mẫu có hoàn lại nên được sử dụng trong thuật 234

toán ngẫu nhiên.

235

236

Hình 6. Ảnh hưởng của số cây ra quyết định đến hiệu suất của mô hình huấn luyện

4.3. Ảnh hưởng của một số thông số khác

Bên cạnh 2 tham số quan trọng ảnh hưởng đến hiệu suất của mô hình rừng ngẫu nhiên được trình bày ở trên, một số tham số khác cần quan tâm là: (1) số lượng mẫu tối thiểu tại 1 nút, (2) số lượng mẫu tối thiểu tại một lá và (3) số lượng biến đầu vào lớn nhất cho phép sử dụng đối với một cây ra quyết định. Ảnh hưởng của 3 tham số này được trình bày trong Hình7,8và9. Hình7và8cho thấy rằng khi quy định số lượng mẫu tối thiểu tại nút và lá tăng lên, độ chính xác của mô hình bị giảm đi

4.3. Ảnh hưởng của một số thông số khác 238

Bên cạnh 2 tham số quan trọng ảnh hưởng đến hiệu suất của mô hình rừng ngẫu 239

nhiên được trình bày ở trên, một số tham số khác cần quan tâm là: (1) số lượng mẫu tối 240

thiểu tại 1 nút, (2) số lượng mẫu tối thiểu tại một lá và (3) số lượng biến đầu vào lớn 241

nhất cho phép sử dụng đối với một cây ra quyết định. Ảnh hưởng của 3 tham số này 242

được trình bày trong Hình 7, 8 và 9. Hình 7 và 8 cho thấy rằng khi quy định số lượng 243

mẫu tối thiểu tại nút và lá tăng lên, độ chính xác của mô hình bị giảm đi đối với cả tập 244

huấn luyện và tập kiểm tra. Do vậy, đối với các bài toán phân tích hồi quy, các cây ra 245

quyết định nên được xây dựng với độ sâu tối đa của dữ liệu. Hay nói một cách khác là 246

số lượng mẫu tối thiểu tại mỗi lá là 1 và tại mỗi nút là 2. Hình 9 cho thấy rằng việc giới 247

hạn số lượng biến đầu vào cho phép sử dụng tại mỗi cây ra quyết định không ảnh hưởng 248

lớn đến hiệu suất của bài toán hồi quy. Điều đó có nghĩa là người dùng có thể sử dụng 249

số lượng biến đầu vào tối đa cho mỗi cây tùy ý (lưu ý không được quá bé). Tuy nhiên, 250

dựa trên Hình 9, hiệu suất của mô hình sẽ tăng lên một chút (không đáng kể) nếu số 251

lượng biến đầu vào tối đa cho mỗi cây bé hơn tổng số lượng biến đầu vào của dữ liệu.

252

253

Hình 7. Ảnh hưởng của số lượng mẫu tối thiểu tại một nút đến hiệu suất của mô hình 254

huấn luyện

Hình 7. Ảnh hưởng của số lượng mẫu tối thiểu tại một nút đến hiệu suất của mô hình huấn luyện255

117

(9)

12 256

Hình 8. Ảnh hưởng của số lượng mẫu tối thiểu tại một lá đến hiệu suất của mô hình 257

huấn luyện 258

259

huấn luyện 261

4.4. Ảnh hưởng của độ lớn dữ liệu huấn luyện 262

Dựa trên các phân tích trên, để đánh giá ảnh hưởng của độ lớn dữ liệu huấn luyện 263

đến mô hình, trong phần này các tham số của mô hình được lựa chọn như sau: số lượng 264

cây ra quyết định = 100, kỹ thuật lấy mẫu có hoàn lại (sử dụng bootstrap), số lượng mẫu 265

tối thiểu tại 1 nút = 2, số lượng mẫu tối thiểu tại một lá = 1 và số lượng biến đầu vào 266

lớn nhất cho phép sử dụng đối với một cây ra quyết định = số lượng biến đầu vào. Số 267

Hình 8. Ảnh hưởng của số lượng mẫu tối thiểu tại một lá đến hiệu suất của mô hình huấn luyện

12 256

huấn luyện 258

259

huấn luyện 261

4.4. Ảnh hưởng của độ lớn dữ liệu huấn luyện 262

Dựa trên các phân tích trên, để đánh giá ảnh hưởng của độ lớn dữ liệu huấn luyện 263

đến mô hình, trong phần này các tham số của mô hình được lựa chọn như sau: số lượng 264

cây ra quyết định = 100, kỹ thuật lấy mẫu có hoàn lại (sử dụng bootstrap), số lượng mẫu 265

tối thiểu tại 1 nút = 2, số lượng mẫu tối thiểu tại một lá = 1 và số lượng biến đầu vào 266

lớn nhất cho phép sử dụng đối với một cây ra quyết định = số lượng biến đầu vào. Số 267

Hình 9. Ảnh hưởng của số lượng mẫu tối thiểu tại một lá đến hiệu suất của mô hình huấn luyện

đối với cả tập huấn luyện và tập kiểm tra. Do vậy, đối với các bài toán phân tích hồi quy, các cây ra quyết định nên được xây dựng với độ sâu tối đa của dữ liệu. Hay nói một cách khác là số lượng mẫu tối thiểu tại mỗi lá là 1 và tại mỗi nút là 2. Hình9cho thấy rằng việc giới hạn số lượng biến đầu vào cho phép sử dụng tại mỗi cây ra quyết định không ảnh hưởng lớn đến hiệu suất của bài toán hồi quy.

Điều đó có nghĩa là người dùng có thể sử dụng số lượng biến đầu vào tối đa cho mỗi cây tùy ý (lưu ý không được quá bé). Tuy nhiên, dựa trên Hình9, hiệu suất của mô hình sẽ tăng lên một chút (không đáng kể) nếu số lượng biến đầu vào tối đa cho mỗi cây bé hơn tổng số lượng biến đầu vào của dữ liệu.

4.4. Ảnh hưởng của độ lớn dữ liệu huấn luyện

Dựa trên các phân tích trên, để đánh giá ảnh hưởng của độ lớn dữ liệu huấn luyện đến mô hình, trong phần này các tham số của mô hình được lựa chọn như sau: số lượng cây ra quyết định = 100, kỹ thuật lấy mẫu có hoàn lại (sử dụng bootstrap), số lượng mẫu tối thiểu tại 1 nút = 2, số lượng mẫu tối thiểu tại một lá = 1 và số lượng biến đầu vào lớn nhất cho phép sử dụng đối với một cây ra quyết định

= số lượng biến đầu vào. Số lượng mẫu dữ liệu tập kiểm tra là 5000, còn của tập huấn luyện được thay đổi từ 1000 đến 20000. Mỗi trường hợp chương trình được chạy độc lập 10 lần. Kết quả được trình bày trong Hình 10. Có thể nhận ra rằng khi số lượng mẫu của tập huấn luyện tăng lên thì độ chính xác của mô hình đối với tập kiểm tra tăng lên. MSE tương ứng với số lượng mẫu là 5000 = 1,13E-03 bằng 44,8% so với MSE của 500 mẫu ( = 2,52E-03) và bằng 168% so với MSE của 20000 mẫu (=

6,72E-04). Rõ ràng yếu tố số lượng mẫu mang tính quyết định nhất đến độ chính xác của mô hình 118

(10)

huấn luyện. Tuy nhiên, việc lựa chọn nhiều số lượng mẫu sẽ làm tăng thời gian tính toán, đặc biệt là thời gian tạo ra dữ liệu đối với các bài toán sử dụng phân tích phi tuyến tính phi đàn hồi như trong bài báo này. Cụ thể, đối với 5000 mẫu thì thời gian tạo dự liệu huấn luyện là 8,3 (giờ), còn 20000 mẫu là 33,3 (giờ). Do vậy, sự lựa chọn số lượng mẫu huấn luyện cần phải được xem xét dựa trên mối quan hệ giữa hiệu quả của mô hình và thời gian tính toán.

13

lượng mẫu dữ liệu tập kiểm tra là 5000, còn của tập huấn luyện được thay đổi từ 1000 268

đến 20000. Mỗi trường hợp chương trình được chạy độc lập 10 lần. Kết quả được trình 269

bày trong Hình 10. Có thể nhận ra rằng khi số lượng mẫu của tập huấn luyện tăng lên 270

thì độ chính xác của mô hình đối với tập kiểm tra tăng lên. MSE tương ứng với số lượng 271

mẫu là 5000 = 1.13E-03 bằng 44.8% so với MSE của 500 mẫu ( = 2.52E-03) và bằng 272

168% so với MSE của 20000 mẫu ( = 6.72E-04). Rõ ràng yếu tố số lượng mẫu mang 273

tính quyết định nhất đến độ chính xác của mô hình huấn luyện. Tuy nhiên, việc lựa chọn 274

nhiều số lượng mẫu sẽ làm tăng thời gian tính toán, đặc biệt là thời gian tạo ra dữ liệu 275

đối với các bài toán sử dụng phân tích phi tuyến tính phi đàn hồi như trong bài báo này.

276

Cụ thể, đối với 5000 mẫu thì thời gian tạo dự liệu huấn luyện là 8.3 (giờ), còn 20000 277

mẫu là 33.3 (giờ). Do vậy, sự lựa chọn số lượng mẫu huấn luyện cần phải được xem xét 278

dựa trên mối quan hệ giữa hiệu quả của mô hình và thời gian tính toán.

279

280

Hình 10. Ảnh hưởng của số lượng mẫu của tập huấn luyện đến hiệu suất của mô hình 281

huấn luyện 282

5. Kết luận 283

Bài báo này giới thiệu chi tiết một chương trình ước lượng khả năng chịu tải của 284

khung thép phi tuyến sử dụng thuật toán rừng ngẫu nhiên. Thông số đầu vào của mô 285

hình huấn luyện là các tiết diện của dầm và cột với 16 đặc trưng hình học cho mỗi loại 286

tiết diện. Thông số đầu ra là hệ số khả năng chịu tải của kết cấu được xác định sử dụng 287

phân tích trực tiếp phi tuyến tính phi đàn hồi. Một khung thép không gian 6 tầng với 288

208 biến đầu vào được sử dụng để đánh giá hiệu quả của mô hình huấn luyện. Ảnh 289

hưởng của các thông số quan trọng của mô hình như số lượng cây ra quyết định, kỹ 290

thuật lấy mẫu, số lượng mẫu tối thiểu tại 1 nút và 1 lá, số lượng biến đầu vào lớn nhất 291

cho phép sử dụng đối với một cây ra quyết định và số lượng mẫu của tập huấn luyện 292

Hình 10. Ảnh hưởng của số lượng mẫu của tập huấn luyện đến hiệu suất của mô hình huấn luyện

5. Kết luận

Bài báo này giới thiệu chi tiết một chương trình ước lượng khả năng chịu tải của khung thép phi tuyến sử dụng thuật toán rừng ngẫu nhiên. Thông số đầu vào của mô hình huấn luyện là các tiết diện của dầm và cột với 16 đặc trưng hình học cho mỗi loại tiết diện. Thông số đầu ra là hệ số khả năng chịu tải của kết cấu được xác định sử dụng phân tích trực tiếp phi tuyến tính phi đàn hồi. Một khung thép không gian 6 tầng với 208 biến đầu vào được sử dụng để đánh giá hiệu quả của mô hình huấn luyện. Ảnh hưởng của các thông số quan trọng của mô hình như số lượng cây ra quyết định, kỹ thuật lấy mẫu, số lượng mẫu tối thiểu tại 1 nút và 1 lá, số lượng biến đầu vào lớn nhất cho phép sử dụng đối với một cây ra quyết định và số lượng mẫu của tập huấn luyện đến mô hình huấn luyện được phân tích, đánh giá. Kết quả thu được cho thấy, số lượng cây ra quyết định nên sử dụng≥100; Đối với bài toán hồi quy, cây ra quyết định nên được phân chia đến độ sâu tối đa; và độ chính xác của mô hình tăng lên khi số lượng mẫu huấn luyện tăng lên nhưng cần xem xét dựa trên tương quan giữa hiệu quả mang lại về mặt kết quả và thời gian tính toán.

Tài liệu tham khảo

[1] Thai, H.-T., Kim, S.-E. (2011). Nonlinear inelastic analysis of space frames. Journal of Constructional Steel Research, 67(4):585–592.

[2] Kim, S.-E., Choi, S.-H. (2001). Practical advanced analysis for semi-rigid space frames. International Journal of Solids and Structures, 38(50-51):9111–9131.

[3] ANSI/AISC 360-10 (2010).Specification for structural steel buildings. Chicago (IL): American Institute of Steel Construction.

[4] Ha, M.-H., Vu, Q.-V., Truong, V.-H. (2020).Optimization of nonlinear inelastic steel frames considering panel zones.Advances in Engineering Software, 142:102771.

[5] Ha, M.-H., Vu, Q.-A., Truong, V.-H. (2018). Optimum Design of Stay Cables of Steel Cable-stayed Bridges Using Nonlinear Inelastic Analysis and Genetic Algorithm.Structures, 16:288–302.

(11)

[6] Kim, S.-E., Truong, V.-H. (2020). Reliability Evaluation of Semirigid Steel Frames Using Advanced Analysis.Journal of Structural Engineering, 146(5):04020064.

[7] Hung, T. V., Viet, V. Q., Thuat, D. V. (2019). A deep learning-based procedure for estimation of ulti- mate load carrying of steel trusses using advanced analysis. Journal of Science and Technology in Civil Engineering (STCE) - NUCE, 13(3):113–123.

[8] Truong, V.-H., Vu, Q.-V., Thai, H.-T., Ha, M.-H. (2020). A robust method for safety evaluation of steel trusses using Gradient Tree Boosting algorithm.Advances in Engineering Software, 147:102825.

[9] Vu, Q.-V., Truong, V.-H., Thai, H.-T. (2021).Machine learning-based prediction of CFST columns using gradient tree boosting algorithm.Composite Structures, 259:113505.

[10] Hùng, H. M., Hùng, T. V., Thuật, Đ. V., Việt, V. Q. (2020). Phương pháp xử lý hiện tượng mô hình quá khớp trong xây dựng mô hình học sâu để ước lượng khả năng chịu tải của giàn phi tuyến. Tạp chí Khoa học Công nghệ Xây dựng (KHCNXD)-ĐHXD, 14(1V):12–20.

[11] Yang, I.-T., Hsieh, Y.-H. (2012).Reliability-based design optimization with cooperation between support vector machine and particle swarm optimization. Engineering with Computers, 29(2):151–163.

[12] Chen, W., Xu, C., Shi, Y., Ma, J., Lu, S. (2019). A hybrid Kriging-based reliability method for small failure probabilities.Reliability Engineering & System Safety, 189:31–41.

[13] Gholizadeh, S. (2015). Performance-based optimum seismic design of steel structures by a modified firefly algorithm and a new neural network.Advances in Engineering Software, 81:50–65.

[14] Oh, C. K., Beck, J. L., Yamada, M. (2008).Bayesian Learning Using Automatic Relevance Determination Prior with an Application to Earthquake Early Warning. Journal of Engineering Mechanics, 134(12):

1013–1020.

[15] Hasni, H., Alavi, A. H., Lajnef, N., Abdelbarr, M., Masri, S. F., Chakrabartty, S. (2017). Self-powered piezo-floating-gate sensors for health monitoring of steel plates.Engineering Structures, 148:584–601.

[16] Liaw, A., Wiener, M. (2002). Classification and regression by randomForest. R news, 2(3):18–22.

[17] Hapfelmeier, A., Ulm, K. (2013). A new variable selection approach using Random Forests. Computa- tional Statistics & Data Analysis, 60:50–69.

[18] Breiman, L. (2001). Random forests. Machine Learning, 45(1):5–32.

[19] Breiman, L. (1999). Random forests-random features. Technical Report 567, Statistics Department.

University of California, Berkeley.

[20] Pal, M., Mather, P. M. (2003).An assessment of the effectiveness of decision tree methods for land cover classification.Remote Sensing of Environment, 86(4):554–565.

[21] Feller, W. (1968). An introduction to probability theory and its applications, volume 1. 3rd edition, John Wiley & Sons.

120