NHẬN DẠNG ĐỐI TƯỢNG ĐỒ HỌA TRONG ẢNH VĂN BẢN SỬ DỤNG MẠNG NƠ RON TÍCH CHẬP

(1)

ÑI H≈C QU»C GIA HÀ NÀI TR◊ÕNG ÑI H≈C CÔNG NGHõ

Nguyπn Tußn Anh

NHäN DÑNG »I T◊—NG « H≈ A TRONG ÉNH V ãN BÉN S€ D÷NG MÑNG NÃ RON

TÍCH CHäP

LUäN V ãN THÑC Sû Ngành: Khoa hÂc máy tính

HÀ NÀI - 2021

(2)

ÑI H≈C QU»C GIA HÀ NÀI TR◊ÕNG ÑI H≈C CÔNG NGHõ

Nguyπn Tußn Anh

NHäN DÑNG »I T◊—NG « H≈ A TRONG ÉNH V ãN BÉN S€ D÷NG MÑNG NÃ RON

TÍCH CHäP

LUäN V ãN THÑC Sû Ngành: Khoa hÂc máy tính

Cán bÎ h˜Óng d®n: TS. Nguyπn Th‡ NgÂc Diªp

HÀ NÀI - 2021

(3)

TÓM T ç T

Chuy∫n Íi sË và sË hóa v´n b£n ã em l§i nh˙ng lÒi ích vô cùng to lÓn cho các doanh nghiªp là c≠t gi£m chi phí v™n hành, và t´ng hiªu qu£ làm viªc, các quy∏t

‡nh bây giÌ ˜Òc ã ra nhanh chóng và chính xác hÏn nhÌ các hª thËng báo cáo thông suËt k‡p thÌi. Íi l§i, sË l˜Òng các vń b£n báo cáo c¶n ph£i gi£i quy∏t và l˜u tr˙ ngày mÎt lÓn d®n ∏n bài toán tìm ki∏m ngày mÎt ph˘c t§p. Nhu c¶u giÌ ây không còn chø d¯ng l§i  viªc tìm ki∏m t¯nÎi dung vń b£n mà còn c¶n tìm ki∏m các Ëi t˜Òng Á hÂa nh˜ b£ng bi∫u, Á th‡. Các hª thËng tìm ki∏m Á hÂa muËn ho§t Îng hiªu qu£ thì c¶n có b˜Óc nh™n d§ng và phát hiªn các Ëi t˜Òng này. a ph¶n các ph˜Ïng pháp và mô hình nh™n diªn Ëi t˜Òng Á hÂa trong£nh vń b£n hiªn nay ang ˜Òc hußn luyªn trên mÎt bÎ d˙ liªu có ı hai ph¶n là v‡ trí và tên nhãn cıa Ëi t˜Òng Á hÂa. Công s˘c và thÌi gian ∫ gán nhãn cho các bÎ d˙ liªu này là rßt lÓn. Do v™y trong lu™n vń này chúng tôi ∑ xußt mÎt ph˜Ïng pháp có th∫ t™n dˆng bÎd˙liªu không ¶y ıv∑ tên nhãn cıa các lÓp ∫ nh™n d§ng các Ëi t˜Òng ÁhÂa.

Nh˙ng óng góp chính cıa lu™n v´n bao gÁm.

– ∑ xußt ph˜Ïng pháp s˚ dˆng m§ng nÏ ron tích ch™p YOLO cho bài toán ‡nh v‡ Ëi t˜Òng Á hÂa vÓi bÎ d˙ liªu chø bao gÁm các v‡ trí cıa hÎp giÓi h§n.

– ∑ xußt ph˜Ïng pháp s˚ dˆng m§ng hÂc sâu t¸ giám sát DINO cho b˜Óc trích xußt thuÎc tính hình £nh dùng trong bài toán phân lo§i các lÓp Ëi t˜Òng Á hÂa vÓi bÎ d˙liªu có sË l˜Òng £nh mÈi lÓp h§n ch∏.

– Xây d¸ng và phát tri∫n hª thËng tìm ki∏m và truy xußt các Ëi t˜Òng Á hÂa trong £nh v´n b£n.

Ph˜Ïng pháp nh™n d§ng các Ëi t˜Òng ÁhÂa trong£nh v´n b£n ˜Òc trình bày trong lu™n v´n ã ˜Òc th˚nghiªm và §t k∏t qu£ xßp xø 74% trên các bÎ d˙ liªu ki∫m th˚

và ánh giá. Áp dˆng các ph˜Ïng pháp trên vào ∫ xây d¸ng nên hª thËng tìm ki∏m và truy xußt các v´n b£n t¯các Ëi t˜Òng Á hÂa §t ˜Òc k∏t qu£ Î hÁi t˜ng §t 93,3%.

T¯ khóa: nh™n d§ng Ëi t˜Òng, phân lo§i hình £nh, Ëi t˜Òng Á hÂa

(4)

ABSTRACT

Digital transformation and digitization of documents have greatly benefited busi- nesses as they can cut operating costs and increase working efficiency. Decisions are now made quickly and accurately through timely and transparent reporting systems.

In turn, the number of report documents that need to be processed and stored in- creases, leading to an increasingly complex search problem. The need now is not just to search from the textual content but also to look for graphic objects such as tables and graphs. For visual search systems to work effectively, there is a need to recognize and detect these objects. Most of the methods and models for recognizing graphic objects in-text images are currently being trained on a dataset with two parts, the lo- cation and the label name of the graphical object. The effort to label these datasets is not tiny, and the time spent is also considerable. Therefore, in this thesis, we propose a method that can use the incomplete data set of label names of classes to identify graphic objects. The main contributions of the thesis include.

– We propose using a convolutional neural network (YOLO) to locate graphic objects with a dataset that includes only the bounding box’s locations.

– We propose a method to use a self-supervised deep learning network (DINO) for the feature extraction step used to classify graphic objects with a dataset with a limited number of images per class.

– Building and developing a system for searching and retrieving graphic objects in text images.

The method of recognizing graphic objects in text images presented in this thesis has been tested and achieved approximately 74% results on test and evaluation datasets.

Applying the above methods to build a system for searching and retrieving documents from graphic objects also achieved the top 3 recall results of 93.3%.

Keywords: object recognition, image classification, graphic object

(5)

LÕI CÉM ÃN

LÌi ¶u tiên cho tôi xin ˜Òc g˚i lÌi c£m Ïn chân thành và sâu s≠c nhßt tÓi TS.

Nguyπn Th‡ NgÂc Diªp ng˜Ìi ã h˜Óng d®n và chø b£o t™n tình nhßt cho tôi trong suËt quá trình hoàn thành lu™n v´n này.

Tôi xin ˜Òc g˚i lÌi c£m Ïn tÓi toàn bÎ các th¶y giáo, cô giáo cıa tr˜Ìng §i hÂc Công Nghª - §i hÂc QuËc Gia Hà NÎi nh˙ng ng˜Ìi ã t§o i∑u kiªn tËt nhßt ∫ tôi có th∫ hÂc t™p, nghiên c˘u và hÏn c£ là ã truy∑n thˆ cho tôi nh˙ng hành trang ki∏n th˘c ¶y ı nhßt.

Tôi cÙng xin g˚i lÌi c£m Ïn chân thành nhßt tÓi nh˙ng ng˜Ìi b§n ng˜Ìi anh, ch‡

ã giúp Ô tôi hoàn thiªn c£v∑ ki∏n th˘c chuyên môn và kˇn´ng hÂc t™p nghiên c˘u.

CuËi cùng và không th∫ thi∏u ó là lÌi c£mÏn tÓi bËmµ và ch‡ tôi và ∞c biªt là b§n Dung Phùng nh˙ng ng˜Ìi ã luôn bên c§nh tôi giúp Ô và Îng viên cÍ vÙ tinh th¶n tôi trong nh˙ng lúc khó kh´n nhßt.

Tôi xin chân thành c£m Ïn!

Hà NÎi, ngày 10 tháng 10 n´m 2021 Sinh viên

Nguyπn Tußn Anh

(6)

LÕI CAM OAN

Tôi xin cam oan toàn bÎ lu™n v´n v∑ ph˜Ïng pháp nh™n d§ng Ëi t˜Òng Á hÂa trong £nh v´n b£n s˚ dˆng m§ng nÏ ron tích ch™p này là do tôi th¸c hiªn d˜Ói s¸ h˜Óng d®n cıa TS. Nguyπn Th‡ NgÂc Diªp. Tßt c£các công trình nghiên c˘u, bài báo, khóa lu™n, tài liªu cıa các tác gi£ khác ˜Òc tôi s˚ dˆng trong khóa lu™n này

∑u ˜Òc trích d®n t˜Ìng minh và ∑u có trong danh sách tài liªu tham kh£o.

Hà NÎi, ngày 10 tháng 10 n´m 2021 Sinh viên

Nguyπn Tußn Anh

(7)

Mˆc lˆc

Mˆc lˆc iii

Danh sách các k˛ hiªu và ch˙ vi∏t t≠t vi

Danh sách b£ng vii

Danh sách hình v≥ viii

Ch˜Ïng 1 GiÓi thiªu 1

1.1 BËi c£nh nghiên c˘u . . . 1

1.2 Mô t£ bài toán và ∞t vßn ∑ . . . 2

1.3 Mˆc tiêu nghiên c˘u . . . 3

1.4 óng góp cıa lu™n v´n . . . 3

1.5 Cßu trúc lu™n v´n . . . 4

Ch˜Ïng 2 Các nghiên c˘u liên quan 6 2.1 Các bÎ d˙ liªu v∑ nh™n d§ng Ëi t˜Òng Á hÂa . . . 6

2.2 Các ph˜Ïng pháp trích xußt thuÎc tính cıa £nh . . . 8

2.2.1 Trích xußt thuÎc tính cıa £nh s˚ dˆng m§ng tích ch™p . . . 8

2.3 Các nghiên c˘u v∑ phát hiªn Ëi t˜Òng Á hÂa trong £nh v´n b£n . . . 10

2.3.1 Faster R-CNN . . . 12

(8)

2.3.2 Mask R-CNN . . . 13

2.3.3 Ph˜Ïng pháp ti∏p c™n d¸a trên l™p trình Îng . . . 14

2.4 Hª thËng tìm ki∏m hình £nh d¸a trên nÎi dung . . . 14

Ch˜Ïng 3 Ph˜Ïng pháp nh™n d§ng Ëi t˜Òng Á hÂa trong £nh v´n b£n 16 3.1 Ph˜Ïng pháp nh™n d§ng Ëi t˜Òng ÁhÂa Ïn nhãn . . . 16

3.1.1 Ph˜Ïng pháp s˚ dˆng m§ng tích ch™p cho b˜Óc phát hiªn Ëi t˜Òng Á hÂa trong £nh v´n b£n . . . 18

3.1.2 Trích xußt thuÎc tính cıa £nh s˚ dˆng m§ng transformer . . . . 20

3.1.3 Phân lo§i hình £nh s˚ dˆng ph˜Ïng pháp k∏t hÒp . . . 24

3.2 Hª thËng tìm ki∏m Ëi t˜Òng ÁhÂa . . . 24

Ch˜Ïng 4 Th¸c nghiªm và k∏t qu£ 27 4.1 BÎ d˙ liªu th¸c nghiªm . . . 27

4.2 Ph˜Ïng pháp ánh giá . . . 28

4.3 K∏t qu£ th¸c nghiªm . . . 30

4.3.1 K∏t qu£ nh™n d§ng Ëi t˜Òng a nhãn . . . 30

4.3.2 K∏t qu£ nh™n d§ng Ëi t˜Òng Ïn nhãn . . . 33

4.3.3 K∏t qu£ phân lo§i £nh Ëi t˜Òng Á hÂa . . . 35

4.3.4 K∏t qu£ nh™n d§ng Ëi t˜Òng Á hÂa Ïn nhãn k∏t hÒp phân lo§i hình £nh . . . 36

4.3.5 K∏t qu£ nh™n d§ng Ëi t˜Òng Á hÂa trên bÎ d˙ liªu v´n b£n hành chính . . . 37

4.4 K∏t qu£ cıa hª thËng tìm ki∏m Ëi t˜Òng Á hÂa . . . 39

Ch˜Ïng 5 K∏t lu™n 41

(9)

Tài liªu tham kh£o 43

(10)

Acronyms

CNN Convolutional Neural Network PCA Principal Component Analysis RGB Red, green, blue

SVC Support Vector Classification SVM Support-vector machine

(11)

Danh sách b£ng

2.1 Các thông tin chung v∑ các bÎ d˙ liªu phÍ bi∏n . . . 8

3.1 Thông tin v∑ các bi∫n th∫ cıa mô hình DINO ViT . . . 23

4.1 Thông tin v∑ bÎ d˙ liªu IIT-AR-13K . . . 27

4.2 Thông tin v∑ bÎ d˙ liªu IIT-AR-13K . . . 28

4.3 K∏t qu£ nh™n d§ng Ëi t˜Òng a nhãn so sánh vÓi bài báo [1] . . . 30

4.4 K∏t qu£ nh™n d§ng Ëi t˜Òng a nhãn so sánh các ph˜Ïng pháp khác . 31 4.5 K∏t qu£ nh™n d§ng b£ng khi so sánh vÓi các bÎ d˙ liªu khác . . . 33

4.6 K∏t qu£ nh™n d§ng Ëi t˜Òng Ïn nhãn . . . 34

4.7 BÎ d˙ liªu phân lo§i hình £nh . . . 35

4.8 K∏t qu£ phân lo§i hình £nh s˚dˆng ph˜Ïng pháp k∏t hÒp . . . 35

4.9 K∏t qu£ phân lo§i hình £nh s˚dˆng ph˜Ïng pháp tinh chønh mô hình 35 4.10 K∏t qu£ nh™n d§ng Ëi t˜Òng Á hÂa Ïn nhãn k∏t hÒp vÓi phân lo§i hình £nh . . . 37

4.11 K∏t qu£ Î o recall top k cıa hª thËng tìm ki∏m vÓi các mô hình trích xußt thuÎc tính . . . 39

(12)

Danh sách hình v ≥

1.1 ¶u vào và ¶u ra cıa bài toán nh™n diªn Ëi t˜Òng Á hÂa . . . 2

1.2 Hình minh hÂa v∑ các hÎp giÓi h§n các Ëi t˜Òng Á hÂa và tên nhãn các lÓp Ëi t˜Òng . . . 4

2.1 MÎt vài ví dˆv∑ các bÎd˙liªu ICDAR-17, ICDAR-19, tableBank, UNLV 6 2.2 MÎt vài ví dˆ v∑ các bÎ d˙ liªu DocBANK, ICDAR-13, IIT-AR-13k, PubLayNet . . . 7

2.3 Ví dˆ v∑ ki∏n trúc CNN . . . 9

2.4 Ki∏n trúc cıa mô hình EfficientNet b0 [2] . . . 10

2.5 Ki∏n trúc cıa mô hình ResNet 18 [3] . . . 10

2.6 Ki∏n trúc cıa mô hình GoogleNet [4] . . . 10

2.7 Ki∏n trúc cıa Faster R-CNN [5] . . . 12

2.8 Ki∏n trúc cıa Mask R-CNN [6] . . . 13

3.1 Mô hình chung cıa ph˜Ïng pháp nh™n d§ng các Ëi t˜Òng Á hÂa Ïn nhãn . . . 17

3.2 Ki∏n trúc cıa FCNN trong nghiên c˘u [7] . . . 18

3.3 Ki∏n trúc cıa YOLO trong nghiên c˘u [8] . . . 19

3.4 Ki∏n trúc cıa YOLOv3 trong nghiên c˘u [9] . . . 20

3.5 Mô hình chung cıa ki∏n trúc transformer [10] cho £nh . . . 21

(13)

3.6 TÍng quan ph˜Ïng pháp hußn luyªn mô hình DINO trong nghiên c˘u

[11] . . . 22

3.7 Mô hình chung cıa các hª thËng tìm ki∏m £nh d¸a trên nÎi dung . . . 25

3.8 Mô hình chung cıa hª thËng tìm ki∏m Ëi t˜Òng Á hÂa . . . 26

4.1 Phân bËv∑ sËl˜Òng và Îdài các chi∑u cıa các Ëi t˜Òng ÁhÂa trong bÎ d˙ liªu . . . 28

4.2 Ví dˆ v∑ Î chính xác và Î hÁi t˜ng . . . 29

4.3 Ví dˆ v∑ Î IoU . . . 29

4.4 Chi ti∏t so sánh YOLOv3 YOLOv4 YOLOv5 và DETR . . . 32

4.5 Chi ti∏t quá trình hußn luyªn mô hình YOLOv3 nh™n d§ng Ëi t˜Òng Ïn nhãn . . . 34

4.6 Các ví dˆ v∑ tr˜Ìng hÒp nh™n d§ng úng . . . 38

4.7 Các ví dˆ v∑ tr˜Ìng hÒp nh™n d§ng sai . . . 38

(14)

Ch˜Ïng 1

GiÓi thiªu

1.1 BËi c£nh nghiên c˘u

Trong nh˙ng n´m g¶n ây, khái niªm “chuy∫n Íi sË” ã không còn mÓi l§ và ˜Òc nh≠c ∏n rßt nhi∑u trên các ph˜Ïng tiªn truy∑n thông §i chúng. MÎt trong nh˙ng lÒi ích dπ dàng có th∫ nh™n thßy cıa chuy∫n Íi sË Ëi vÓi doanh nghiªp c£ t˜ nhân và nhà n˜Óc ó là c≠t gi£m chi phí v™n hành, và t´ng hiªu qu£ làm viªc. Các quy∏t

‡nh bây giÌ ˜Òc ˜a ra nhanh chóng và chính xác hÏn nhÌ các hª thËng báo cáo thông suËt k‡p thÌi, và tËi ˜u hóa ˜Òc n´ng sußt làm viªc cıa nhân viên.

Trong các doanh nghiªp sË l˜Òng các v´n b£n báo cáo hàng ngày c¶n ph£i gi£i quy∏t và l˜u tr˙ ngày mÎt lÓn d®n ∏n bài toán tìm ki∏m ngày mÎt ph˘c t§p. Nhu c¶u cıa ng˜Ìi dùng ngày giÌ ây không còn chø d¯ng l§i  viªc tìm ki∏m t¯nÎi dung v´n b£n mà còn c¶n tìm ki∏m các Ëi t˜Òng ÁhÂa nh˜b£ng bi∫u, Áth‡ và bi∫u Á.

Do v™y yêu c¶u v∑ mÎt hª thËng tìm ki∏m các Ëi t˜Òng Á hÂa trong v´n b£n là c¶n thi∏t.

Các hª thËng tìm ki∏m Ëi t˜Òng Á hÂa muËn ho§t Îng tËt thì b˜Óc ¶u tiên ó là qu£n l˛và t§o ra chø mˆc các Ëi t˜Òng ÁhÂa trong v´n b£n và ∫ có th∫ ánh chø mˆc các Ëi t˜Òng thì tr˜Óc h∏t chúng ta c¶n ph£i nh™n d§ng và phát hiªn các

Ëi t˜Òng.

(15)

1.2 Mô t£ bài toán và ∞t vßn ∑

Hình 1.1: ¶u vào và ¶u ra cıa bài toán nh™n diªn Ëi t˜Òng ÁhÂa

Nh™n d§ng Ëi t˜Òng ÁhÂa trong £nh v´n b£n là bài toán ‡nh v‡ và phân lo§i

(16)

các Ëi t˜Òng Á hÂa ví dˆ nh˜ b£ng bi∫u, Á th‡ xußt hiªn trong các £nh v´n b£n.

Trong ph§m vi lu™n v´n này chúng tôi ã tÍng hÒp và l¸a chÂn n´m lo§i nhãn d¸a theo bÎ d˙liªu IIT-AR-13k [1] ∫ nh™n d§ng bao gÁm các lo§i nhãn là b£ng, Á th‡, bi∫u t˜Òng, £nh th™t và ch˙k˛. ¶u vào và ¶u ra cıa bài toán ˜Òc mô t£nh˜trong Hình 1.1, t§i ó ¶u vào s≥ là £nh scan, £nh chˆp cıa v´n b£n c¶n ˜Òc nh™n d§ng Ëi t˜Òng và ¶u ra s≥ là tÂa Îv‡ trí cıa các Ëi t˜Òng ÁhÂa kèm theo tên cıa lo§i Ëi t˜Òng Á hÂa ó.

a ph¶n các ph˜Ïng pháp và mô hình nh™n diªn hiªn nay c¶n ph£i ˜Òc hußn luyªn trên mÎt bÎ d˙ liªu lÓn và ¶y ı c£ hai ph¶n là v‡ trí hÎp giÓi h§n và nhãn cıa các lÓp. Công s˘c ∫ gán nhãn cho các bÎ d˙ liªu này là không h∑ nh‰ hÏn n˙a thÌi gian b‰ ra cÙng rßt lÓn. Do v™y c¶n có mÎt ph˜Ïng pháp s˚ dˆng d˙ liªu vÓi sË l˜Òng nhãn nh‰ hÏn mà k∏t qu£ nh™n d§ng v®n hiªu qu£.

1.3 Mˆc tiêu nghiên c˘u

Mˆc tiêu cıa lu™n v´n này ó là s˚ dˆng bÎ d˙ liªu chø bao gÁm v‡ trí các hÎp giÓi h§n và mÎt bÎ d˙ liªu dùng ∫ phân lo§i các Ëi t˜Òng Á hÂa vÓi sË l˜Òng £nh mÈi lÓp là h§n ch∏ nh˜ Hình 1.2. T¯ ó ∑ xußt ph˜Ïng pháp nh™n d§ng Ëi t˜Òng Á hÂa trong £nh v´n b£n.

1.4 óng góp cıa lu™n v ´n

Nh˙ng óng góp chính cıa lu™n v´n bao gÁm:

– ∑ xußt ph˜Ïng pháp s˚dˆng m§ng nÏ ron tích ch™p YOLO cho bài toán nh™n d§ng Ëi t˜Òng Á hÂa trong £nh v´n b£n vÓi bÎ d˙ liªu chø bao gÁm các v‡ trí cıa hÎp giÓi h§n (bounding box).

– ∑ xußt ph˜Ïng pháp s˚ dˆng m§ng hÂc sâu t¸ giám sát DINO cho b˜Óc trích xußt thuÎc tính hình £nh dùng trong bài toán phân lo§i các lÓp Ëi t˜Òng Á hÂa khi d˙ liªu nhãn mÈi chø vÓi sË l˜Òng nh‰nhãn mÈi lÓp.

(17)

Hình 1.2: Hình minh hÂa v∑ các hÎp giÓi h§n các Ëi t˜Òng Á hÂa và tên nhãn các lÓp Ëi t˜Òng

– Ÿng dˆng mô hình YOLO trong khâu ‡nh v‡ Ëi t˜Òng và mô hình DINO trong khâu trích xußt thuÎc tính ∫ xây d¸ng hª thËng tìm ki∏m Ëi t˜Òng Á hÂa trong £nh v´n b£n.

1.5 Cßu trúc lu™n v ´n

Cßu trúc các ph¶n cıa lu™n v´n ˜Òc trình bày nh˜ sau:

– Ch˜Ïng 2: GiÓi thiªu và mô t£ v∑ các bÎ d˙ liªu ã có v∑ chı ∑ nh™n d§ng Ëi t˜Òng ÁhÂa trong£nh v´n b£n, các ph˜Ïng pháp trích xußt thuÎc tính cıa

£nh. Áng thÌi tÍng hÒp và tóm t≠t v∑ các ph˜Ïng pháp nh™n d§ng Ëi t˜Òng ÁhÂa ã có cÙng nh˜ i∫m m§nh và i∫m y∏u cıa t¯ng ph˜Ïng pháp. Mô hình chung và cách th˘c xây d¸ng hª thËng tìm ki∏m, truy xußt hình £nh d¸a trên nÎi dung.

(18)

– Ch˜Ïng 3 Mô t£ và gi£i thích v∑ ph˜Ïng pháp nh™n d§ng Ëi t˜Òng Á hÂa Ïn nhãn trong £nh v´n b£n và ph˜Ïng pháp phân lo§i hình £nh các Ëi t˜Òng Á hÂa. Mô t£ cách th˘c xây d¸ng hª thËng tìm ki∏m Ëi t˜Òng Á hÂa trong

£nh v´n b£n.

– Ch˜Ïng 4: Trình bày v∑ cách th˘c tÍ ch˘c và chu©n b‡ bÎ d˙ liªu, các k∏t qu£

§t ˜Òc cıa ph˜Ïng pháp khi ˜Òc ánh giá trên các bÎd˙liªu ki∫m tra. Áng thÌi ánh giá v∑ m˘c Îhiªu qu£cıa hª thËng tìm ki∏m Ëi t˜Òng ÁhÂa trong

£nh v´n b£n.

– Ch˜Ïng 5: Trình bày v∑ vai trò cıa nghiên c˘u trong lu™n v´n, các k∏t qu£ §t

˜Òc, các i∫m h§n ch∏ cıa ph˜Ïng pháp cÙng nh˜ h˜Óng phát tri∫n ti∏p theo cıa lu™n v´n.

(19)

Ch˜Ïng 2

Các nghiên c˘u liên quan

2.1 Các bÎ d˙ liªu v∑ nh™n d§ng Ëi t˜Òng Á hÂa

Hình 2.1: MÎt vài ví dˆ v∑ các bÎ d˙ liªu ICDAR-17, ICDAR-19, tableBank, UNLV Bài toán nh™n d§ng Ëi t˜Òng ÁhÂa trong v´n b£n có th∫ ˜Òc nhìn nh™n là mÎt

(20)

Hình 2.2: MÎt vài ví dˆ v∑ các bÎ d˙ liªu DocBANK, ICDAR-13, IIT-AR-13k, Pub- LayNet

b˜Óc phát tri∫n t¯bài toán nh™n d§ng b£ng trong v´n b£n. MÎt vài các bÎd˙ liªu v∑

nh™n d§ng b£ng và Ëi t˜Òng ÁhÂa có th∫k∫ ∏n nh˜DocBank [12], ICDAR-13 [13], IIT-AR-13K [1], PubLayNet [14], ICDAR-17 POD [15], ICDAR-19 [16] , TableBank [17], and UNLV [18].Hình 2.1 và Hình 2.2 cho thßy mÎt vài nh˙ng ví dˆ v∑ các bÎ d˙ liªu nh™n diªn Ëi t˜Òng Á hÂa trong £nh v´n b£n. Các thông tin chung v∑ các bÎ d˙ liªu ˜Òc mô t£ trong B£ng 2.1.

Trong lu™n v´n này chúng tôi s˚ dˆng bÎ d˙ liªu IIIT-AR-13k [1] do bÎ d˙ liªu này bao gÁm các Ëi t˜Òng Á hÂa a d§ng hÏn các bÎ d˙ liªu khác nh˜ £nh minh hÂa, £nh th™t, bi∫u t˜Òng và ch˙ k˛. BÎ d˙ liªu này bao gÁm 13 nghìn trang báo cáo hàng n´m có sÆn công khai. Báo cáo hàng n´m b¨ng ti∏ng Anh và các ngôn ng˙không ph£i ti∏ng Anh (ti∏ng Pháp, ti∏ng Nh™t, ti∏ng Nga, v.v.) cıa hÏn hai m˜Ïi chín công ty khác nhau. Báo cáo hàng n´m ch˘a nhi∑u lo§i Ëi t˜Òng Á hÂa khác nhau nh˜

b£ng, nhi∑u lo§i bi∫u Á khác nhau (ví dˆ: bi∫u Á thanh, bi∫u Á hình tròn, bi∫u Á ˜Ìng, v.v.), hình £nh, bi∫u tr˜ng cıa công ty, ch˙ k˛, tem, b£n phác th£o, v.v.

(21)

Trong bÎ d˙ liªu chø ˜Òc gán nhãn n´m lo§i Ëi t˜Òng Á hÂa, bao gÁm: b£ng, £nh minh hÂa (bao gÁm c£ Á th‡ và phác th£o), hình £nh t¸nhiên, bi∫u tr˜ng và ch˙k˛.

B£ng 2.1: Các thông tin chung v∑ các bÎ d˙ liªu phÍ bi∏n

B£ng Énh minh

hÂa Énh th™t Bi∫u t˜Òng Ch˙k˛ Công th˘c SËl˜Òng N´m

PubLayNet x 360 K 2019

DocBank x x 500 K 2020

ICDAR-17 POD x x 2.4 K 2017

IIIT-AR-13k x x x x x 13 K 2020

DeepFigures x 5.5 K 2018

ICDAR-13 x 238 2013

UNLV x 427 2010

ICDAR-2019 x 3.6 K 2019

Marmot x x 958 2012

TableBank x 417 K 2020

2.2 Các ph˜Ïng pháp trích xußt thuÎc tính cıa

£nh

2.2.1 Trích xußt thuÎc tính cıa £nh s˚ dˆng m§ng tích ch™p

Trích xußt thuÎc tính cıa £nh là mÎt chı ∑ không còn mÓi trong lænh v¸c th‡ giác máy tính. Có th∫ hi∫u các hình £nh, bao gÁm rßt nhi∑u thuÎc tính  t¶ng thßp nhßt ó chính là ma tr™n các i∫m £nh ˜Òc mô t£b¨ng 3 màu s≠c ‰, xanh d˜Ïng, xanh lˆc. Nh˜ng n∏u ˜a toàn bÎcác thuÎc tính này tr¸c ti∏p vào các mô hình d¸ oán s≥

làm cho tËc Î hußn luyªn cıa các mô hình b‡ gi£m i rõ rªt. Do v™y ti∏n trình trích xußt thuÎc tính cıa £nh ˜Òc s˚ dˆng dùng ∫ tìm cách trích xußt ra nh˙ng thông tin mang tính tr¯u t˜Òng hÏn ∫ có th∫ ˜a vào mô hình d¸ oán. Ph˜Ïng pháp phÍ bi∏n nhßt khi nói ∏n trích xußt thuÎc tính cıa£nh ó chính là các m§ng nÏ ron tích ch™p (convolutional neural network - CNN) [19] ngoài ra còn có vision transformer (ViT) [10].

(22)

Hình 2.3: Ví dˆ v∑ ki∏n trúc CNN

˜Òc coi là mÎt b˜Óc Ît phá trong x˚ l˛ £nh, hiªn t§i ˘ng dˆng cıa m§ng nÏ ron tích ch™p CNN [19] ˜Òc s˚ dˆng rßt phÍ bi∏n. ∞c biªt trong bài toán phân lo§i

£nh, viªc s˚dˆng CNN mang l§i hiªu qu£rßt tËt và ˜Òc cÎng Áng nghiên c˘u phát tri∫n vÓi nhi∑u thành t¸u trong các bài toán. K∏t qu£hußn luyªn §t ˜Òc trong cuÎc thi v∑ ImageNet 2014 [20] ã ch˘ng minh r¨ng các ph˜Ïng pháp nh™n d§ng s˚ dˆng thu™t toán ã v˜Òt qua con ng˜Ìi v∑ kh£ n´ng hi∫u bi∏t và thÌi gian tính toán trong nh˙ng bÎ d˙ liªu cˆ th∫. a ph¶n các ki∏n trúc cıa các m§ng CNN s≥ g¶n t˜Ïng t¸

nhau ˜Òc mô t£ trong Hình 2.3. MÎt m§ng nÏ ron tích ch™p th˜Ìng bao gÁm các thành ph¶n sau:

– Các lÓp tích ch™p (convolutional layer - conv)

– LÓp tÍng hÒp (pooling layer - Pool) nh¨m làm gi£m các tham sË trong tr˜Ìng hÒp£nh có kích th˜Óc lÓn

– LÓp k∏t nËi ¶y ı (fully connected layer - FC) ∫ tÍng hÒp các thuÎc tính l§i nh¨m s˚ dˆng hàm kích ho§t (softmax ho∞c sigmoid) ∫ phân lo§i nhãn.

Trong mô t£nh˜Hình 2.3, các lÓp tích ch™p s≥ ti∏n hành ch§y các c˚a sÍtr˜Òt trên

£nh ¶u vào ∫ có th∫ t§o ra các ma tr™n ∞c trñg. Các ma tr™n ∞c trñg này có tác dˆng ch˘a các ∞c trñg quan trÂng sau nhi∑u l¶n tÍng hÒp ∫ gi£m tham sË.

LÓp k∏t nËi ¶y ı có th∫ s˚ dˆng chúng và ti∏n hành phân lo§i £nh. MÎt sË nh˙ng m§ng tích ch™p phÍbi∏n có th∫ k∫ ∏n nh˜GoogleNet [4], InceptionBN [21], ResNet [3], EfficientNet [2].

(23)

Hình 2.4: Ki∏n trúc cıa mô hình EfficientNet b0 [2]

Hình 2.5: Ki∏n trúc cıa mô hình ResNet 18 [3]

Hình 2.6: Ki∏n trúc cıa mô hình GoogleNet [4]

2.3 Các nghiên c˘u v∑ phát hiªn Ëi t˜Òng Á hÂa trong £nh v ´n b£n

Nh™n d§ng Ëi t˜Òng là mÎt thu™t ng˙ dùng ∫ mô t£ mÎt t™p hÒp các nhiªm vˆ trong lænh v¸c th‡ giác máy tính có liên quan liên quan ∏n viªc xác ‡nh và phân lo§i các Ëi t˜Òng trong £nh kˇ thu™t sË.

– Xác ‡nh v‡ trí Ëi t˜Òng nh™n vào mÎt hình £nh và tr£ v∑ v‡ trí cıa mÎt ho∞c

(24)

nhi∑u Ëi t˜Òng trong mÎt hình £nh

– Phân lo§i hình £nh nh™n ¶u vào là mÎt £nh và có nhiªm vˆlà d¸ oán tên lÓp cıa mÎt Ëi t˜Òng trong mÎt hình £nh.

Phát hiªn Ëi t˜Òng là s¸ k∏t hÒp hai bài toán trên ∫ th¸c hiªn cho mÎt ho∞c nhi∑u Ëi t˜Òng trong hình £nh. Có th∫ phân biªt gi˙a ba nhiªm vˆ th‡ giác máy tính cÏ b£n trên thông qua ¶u vào và ¶u ra cıa chúng nh˜ sau:

– Phân lo§i hình £nh: D¸ oán lÓp cıa Ëi t˜Òng trong hình £nh ¶u vào.

– ¶u vào: MÎt b˘c £nh cˆ th∫.

– ¶u ra: Tên cıa lÓp.

– ‡nh v‡ Ëi t˜Òng: Xác ‡nh v‡ trí cıa các Ëi t˜Òng trong £nh và chø ra v‡ trí cıa chúng b¨ng các to§ Î.

– ¶u vào: MÎt b˘c £nh cˆ th∫.

– ¶u ra: MÎt ho∞c nhi∑u các hÎp giÓi h§n v‡ trí xác ‡nh bi tÂa Î tâm, chi∑u rÎng và chi∑u cao.

– Phát hiªn Ëi t˜Òng: Xác ‡nh v‡ trí hiªn diªn cıa các Ëi t˜Òng trong bounding box và nhãn cıa các Ëi t˜Òng n¨m trong mÎt hình £nh.

– ¶u vào: MÎt hình £nh có mÎt ho∞c nhi∑u Ëi t˜Òng, chØng h§n nh˜ mÎt b˘c £nh.

– ¶u ra: MÎt ho∞c nhi∑u hÎp giÓi h§n và tên nhãn cıa chúng.

Các ph˜Ïng pháp và nghiên c˘u v∑ bài toán phát hiªn Ëi t˜Òng Á hÂa trong

£nh v´n b£n nh˙ng n´m g¶n ây ã phát tri∫n và §t ˜Òc mÎt vài nh˙ng k∏t qu£

áng k∫. D¸a theo các tÍng hÒp và phân tích trong nghiên c˘u [22] ta có th∫ chia các ph˜Ïng pháp hiªn t§i theo các lo§i sau: Faster RCNN [5], Mask RCNN [6], ph˜Ïng pháp l™p trình Îng [23] và s˚ dˆng m§ng tích ch™p ¶y ı [24].

(25)

2.3.1 Faster R-CNN

Faster R-CNN [5] là phiên b£n c£i ti∏n cıa Fast R-CNN [25] là m§ng phát hiªn Ëi t˜Òng hai giai o§n. Hình 2.7 minh hÂa ki∏n trúc cıa Faster R-CNN [5].

Hình 2.7: Ki∏n trúc cıa Faster R-CNN [5]

Các tác gi£ ã ∑ xußt ph˜Ïng pháp [26] phát hiªn b£ng trong v´n b£n s˚ dˆng ph˜Ïng pháp hÂc sâu d¸a trên hình £nh b¨ng cách tri∫n khai Faster R-CNN [5] ∫ phát hiªn các b£ng trong £nh tài liªu. Trong bài báo ã trình bày r¨ng các ph˜Ïng pháp phát hiªn Ëi t˜Òng trong v´n b£n ˜Òc giÓi thiªu g¶n ây phˆ thuÎc vào m§ng nÏ-ron tích ch™p (CNN) có th∫ phát hiªn các b£ng trong hình £nh tài liªu. B¨ng cách t™n dˆng các x˜Ïng sËng (back-bone) nh˜ ZFNet [27] và VGG-16 [20], các tác gi£ ã

§t ˜Òc nh˙ng k∏t qu£ ¶y h˘a hµn trên t™p d˙ liªu ICDAR-13 [13]. Cách ti∏p c™n này ã s˚ dˆng kˇ thu™t hÂc chuy∫n giao b¨ng cách s˚ dˆng mô hình ˜Òc ào t§o tr˜Óc trên bÎ d˙ liªu Pascal-VOC [28].

Trong nghiên c˘u [29] các tác gi£ ã tri∫n khai ph˜Ïng pháp phát hiªn Ëi t˜Òng Á ho§ trong v´n b£n bao gÁm các Ëi t˜Òng là công th˘c và b£ng, s˚ dˆng mÎt kˇ thu™t tÍng hÒp cıa Fast R-CNN [25] và Faster R-CNN [5]. Các tác gi£ ã k∏t hÒp các ∑ xußt khu v¸c thu ˜Òc t¯Fast R-CNN [25] và Faster R-CNN [5] và sau ó áp

(26)

dˆng hÁi quy hÎp giÓi h§n ∫ t´ng hiªu qu£, ph˜Ïng pháp ã ˜Òc ánh giá trên bÎ d˙ liªu ICDAR-17 POD [15].

2.3.2 Mask R-CNN

Hình 2.8: Ki∏n trúc cıa Mask R-CNN [6]

Mask R-CNN [6] là ph˜Ïng pháp nh™n diªn Ëi t˜Òng ˜Òc c£i ti∏n t¯ mô hình Faster R-CNN [5] vÓi viªc bÍ sung thêm hàm mßt mát phân o§n. Hình 2.8 mô t£

ki∏n trúc cÏ b£n cıa Mask R-CNN [6]. Các Ëi t˜Òng Á hÂa trong các v´n b£n tài liªu có ph˜Ïng sai gi˙a các lÓp rßt thßp. MÎt Ëi t˜Òng ban ¶u ˜Òc g≠n nhãn là mÎt b£ng có th∫ dπ dàng b‡ hi∫u sai vÓi mÎt hình ho∞c công th˘c. B¨ng cách t™n dˆng s¸ mßt phân o§n cıa Mask R-CNN [6], các tác gi£ ã c£i thiªn hiªu sußt cıa hª thËng phát hiªn Ëi t˜Òng Á hÂa. Trong bài báo [30] các tác gi£ ∑ xußt ph˜Ïng pháp phát hiªn Ëi t˜Òng Á hÂa trong £nh tài liªu thông qua viªc s˚ dˆng Mask R-CNN [6]. Các tác gi£ ∑xußt r¨ng không c¶n thêm các b˜Óc ti∑n x˚l˛ và h™u x˚l˛

hình£nh. B¨ng cách t™n dˆng s˘c m§nh cıa viªc hÂc chuy∫n giao (transfer learning), các tác gi£ so sánh hiªu n´ng nh™n diªn Ëi t˜Òng trên các bÎ d˙ liªu nÍi ti∏ng cıa ICDAR-17 POD [15], UNLV [18] và ICDAR-13 [13].

MÎt ph˜Ïng pháp khác là CDeC-Net [31] t™n dˆng m§ng l˜Ói phát hiªn Ëi t˜Òng Cascade Mask R-CNN d¸a trên Cascade R-CNN [32] . Nghiên c˘u [31] ã cho thßy mÎt s¸ c£i thiªn áng chú ˛ trong hiªu sußt cıa hª thËng phát hiªn b£ng. Sau

(27)

khi ánh giá kˇ càng, các tác gi£ ã k∏t lu™n r¨ng m§ng Cascade Mask R-CNN [31]

v˜Òt trÎi hÏn so vÓi các hª thËng phát hiªn b£ng tr˜Óc ây.

2.3.3 Ph˜Ïng pháp ti∏p c™n d¸a trên l™p trình Îng

Trong bài báo [23] các tác gi£ ã giÓi thiªu cách ti∏p c™n phát hiªn Ëi t˜Òng Á hÂa d¸a trên hÂc sâu t˜Ïng t¸nh˜ các thu™t toán phát hiªn Ëi t˜Òng. Ph˜Ïng pháp này s˚ dˆng m§ng nÏ-ron tích ch™p ∫ phát hiªn Ëi t˜Òng Á ho§ t§i các vùng ˘ng viên

˜Òc ∑ xußt ˜Òc tinh chønh thông qua ph˜Ïng pháp l™p trình Îng thay vì ph˜Ïng pháp triªt tiêu không tËi a (Non-maximum suppression-NMS) [33].

B£ng, hình minh ho§, công th˘c và dòng v´n b£n ˜Òc b£n ‡a hóa trong hình

£nh tài liªu bi hª thËng cıa chúng. Các tác gi£l™p lu™n r¨ng các Ëi t˜Òng trang có ph˜Ïng sai cao v∑ t lª khung hình cıa chúng, không giËng nh˜ các Ëi t˜Òng trong hình £nh phong c£nh t¸ nhiên. Do ó, tính n´ng triªt tiêu không tËi a không phù hÒp ∫ phát hiªn tßt c£các Ëi t˜Òng ÁhÂa trong hình £nh tài liªu. So sánh k∏t qu£

vÓi cách ti∏p c™n phát hiªn Ëi t˜Òng thông th˜Ìng cıa Fast R-CNN [25] và Faster R-CNN [5], các tác gi£ ã k∏t lu™n r¨ng ph˜Ïng pháp d¸a trên l™p trình Îng ã v˜Òt trÎi hÏn so vÓi các ph˜Ïng pháp còn l§i.

2.4 Hª thËng tìm ki∏m hình £nh d¸a trên nÎi dung

Hª thËng tìm ki∏m hình £nh d¸a trên nÎi dung là mÎt hª thËng cho phép nh™n ¶u vào t¯ng˜Ìi dùng là mÎt £nh và s≥ tr£v∑ k∏t qu£là mÎt danh sách các £nh trong ó nÎi dung cıa £nh k∏t qu£ tr£ v∑ s≥ giËng ho∞c g¶n giËng vÓi £nh ˜Òc tìm ki∏m. MÎt vài nh˙ng ví dˆ i∫n hình có th∫ k∫ ∏n nh˜ google tìm ki∏m hình £nh. Các nghiên c˘u v∑ hª thËng tím ki∏m hình £nh d¸a trên nÎi dung [34] [35] [36] [37] [38] [39] [40]

ã có nhi∑u nh˙ng phát tri∫n và c£i ti∏n v∑ nhi∑u m∞t. Các ph˜Ïng pháp trích xußt thuÎc tính ˜Òc s˚ dˆng trong các hª thËng tìm ki∏m hình £nh cÙng rßt a d§ng.

– Trích xußt ∞c tr˜ng d¸a theo các ph˜Ïng pháp cÍ i∫n. Các ph˜Ïng pháp trích xußt thuÎc tính theo cách cÍ i∫n này a ph¶n xußt hiªn t¯ tr˜Óc

(28)

nh˙ng n´m 2011. Trong bài báo [37], các tác gi£s˚dˆng ba lo§i ∞c tr˜ng ó là:

(color co-occurrence matrix -CCM), (difference between pixels of scan pattern -DBPSP), (color histogram for K-mean - CHKM). K∏t qu£ khi so sánh ph˜Ïng pháp cıa [37] [34] [41] trên bÎ d˙ liªu 1000 £nh cıa 10 lÓp Ëi t˜Òng[37] cho thßy ph˜Ïng pháp tËt nhßt là [37] chø §t ˜Òc 72,7%.

– Trích xußt ∞c tr˜ng d¸a trên các m§ng hÂc sâu. Các ph˜Ïng pháp a ph¶n s˚dˆng m§ng t¸ Îng mã hóa (autoencoders) và m§ng nÏron tích ch™p. Có th∫ k∫ ∏n mÎt vài ph˜Ïng pháp nh˜ Deep Autoencoder [42], Deep Multi-View Hashing (DMVH) [43], Online Multimodal Deep Similarity Learning (OMDSL) [44], Deep Ranking Model [45].

– Trích xußt ∞c trñg d¸a trên m§ng transformer. Trong bài báo [40], các tác gi£ ã giÓi thiªu mô hình (Image Retrieval Transformers - IRT) trong ó có so sánh các cách th˘c khác nhau khi s˚ dˆng model ViT. Trong ó mô hình IRTR vÓi ∞c trñg ¶u ra ˜Òc i∑u ti∏t ã thu ˜Òc k∏t qu£ tËt nhßt. Trong bài báo [46] các tác gi£ ã s˚ dˆng mô hình ViT ˜Òc hußn luyªn ∫ làm b˜Óc trích xußt ∞c trñg. Các k∏t qu£ khi s˚ dˆng ph˜Ïng pháp [46] khá tËt 88%

vÓi bÎ dataset INRIA [47] và PARIS6K [48]. Các tác gi£ cÙng nêu ra nh˙ng ˜u i∫m cıa m§ng ViT là luôn sÆn sàng s˚ dˆng, không c¶n i∑u chønh ho∞c hußn luyªn l§i tham sË.

(29)

Ch˜Ïng 3

Ph˜Ïng pháp nh™n d§ng Ëi t˜Òng Á hÂa trong £nh v ´n b£n

3.1 Ph˜Ïng pháp nh™n d§ng Ëi t˜Òng Á hÂa Ïn nhãn

VÓi các ph˜Ïng pháp xác ‡nh Ëi t˜Òng Á hÂa trong £nh v´n b£n Ïn thu¶n ã

˜Òc k∫ ∏n trong Ch˜Ïng 2 v¯a rÁi chúng ta thßy r¨ng s≥ chø c¶n mÎt mô hình nh™n d§ng Ëi t˜Òng duy nhßt. K∏t qu£ tr£ v∑ cıa mô hình s≥ là v‡ trí cıa Ëi t˜Òng và tên lo§i cıa Ëi t˜Òng Á hÂa ó. Nh˜ng vÓi các mô hình này chúng ta c¶n ph£i có bÎ d˙ liªu bao gÁm các hÎp giÓi h§n và tên nhãn ˘ng vÓi t¯ng hÎp giÓi h§n mÎt.

∫ có th∫ chu©n b‡ các bÎ d˙ liªu nh˜ này s≥ mßt rßt nhi∑u công s˘c ∫ gán nhãn.

Do v™y chúng tôi s˚ dˆng mÎt ph˜Ïng pháp mÓi gÂi là ph˜Ïng pháp nh™n diªn Ëi t˜Òng Á hÂa Ïn nhãn.

Viªc chu©n b‡ bÎ d˙ liªu ∫ hußn luyªn cho mô hình bây giÌ s≥ ˜Òc rút gÂn mÎt b˜Óc là gán nhãn v∑ lo§i Ëi t˜Òng cho t¯ng hÎp giÓi h§n. Các Ëi t˜Òng ÁhÂa

(30)

bây giÌ ∑u s≥ chung mÎt nhãn gÂi là “ Ëi t˜Òng”. Và ˜a bÎ d˙ liªu này vào ∫ hußn luyªn mô hình phát hiªn Ëi t˜Òng. B˜Óc còn l§i là phân lo§i các lo§i Ëi t˜Òng s≥ c¶n chu©n b‡ mÎt bÎ d˙ liªu v∑ các lo§i Ëi t˜Òng Á hÂa nh˜ng sË l˜Òng £nh c¶n chu©n b‡ mÈi lÓp s≥ không c¶n toàn bÎmà chø c¶n mÎt vài £nh mÈi lÓp.

Hình 3.1: Mô hình chung cıa ph˜Ïng pháp nh™n d§ng các Ëi t˜Òng ÁhÂa Ïn nhãn Ph˜Ïng pháp nh™n d§ng các Ëi t˜Òng Á hÂa Ïn nhãn ˜Òc mô t£ các b˜Óc nh˜trong Hình 3.1. Trong ó ¶u vào s≥là mÎt v´n b£n ˜Òc i qua b˜Óc phát hiªn Ëi t˜Òng ∫ tr£ v∑ v‡ trí các Ëi t˜Òng Á hÂa. T¯ các v‡ trí ó ta s≥ lßy ra các £nh

(31)

và ˜Òc qua b˜Óc phân lo§i các Ëi t˜Òng ÁhÂa và tr£v∑ tên cıa các lo§i Ëi t˜Òng Á hÂa ó. Hª thËng s˚ dˆng hai mô hình chính ó là mô hình xác ‡nh v‡ trí các Ëi t˜Òng Á hÂa và mô hình trích xußt thuÎc tính cıa £nh

3.1.1 Ph˜Ïng pháp s˚ dˆng m§ng tích ch™p cho b˜Óc phát hiªn Ëi t˜Òng Á hÂa trong £nh v ´n b£n

Hình 3.2: Ki∏n trúc cıa FCNN trong nghiên c˘u [7]

Cùng vÓi các thu™t toán phát hiªn Ëi t˜Òng, m§ng nÏ ron tích ch™p ¶y ı (Fully Convolutional Neural Networks - FCNN) [24] ã ˜Òc s˚ dˆng ∫ gi£i quy∏t bài toán phát hiªn Ëi t˜Òng Á hÂa trong £nh v´n b£n. CÏ ch∏ FCNN [24] là gán nhãn cho mÈi pixel có trong mÎt hình£nh. Hình 3.2mô t£ki∏n trúc cıa FCNN [24], trong nghiên c˘u [49] các tác gi£ coi r¨ng bài toán nh™n diªn các Ëi t˜Òng Áho§ s≥

t˜Ïng t¸ nh˜ các bài toán nh™n diªn thông th˜Ìng. Các tác gi£ ∑ xußt r¨ng mÈi lÓp Ëi t˜Òng có th∫ ˜Òc coi riêng biªt. ∫ phân lo§i các lÓp ó hª thËng s˚dˆng FCNN [24] trong ó mÈi pixel s≥ ˜Òc phân lo§i thành b£ng, bi∫u Á ho∞c n∑n trong£nh tài liªu. B£n Á chı th∫ chính thu ˜Òc s≥ ˜Òc truy∑n thêm tÓi lÓp CRF (Conditional Random Field) [24] giúp làm m‡n ¶u ra cıa hª thËng.

Ngoài ra ph˜Ïng pháp nh™n d§ng v™t th∫ không th∫ thi∏u ó là YOLO [8] là mÎt m§ng hÂc sâu k∏t hÒp gi˙a lÓp tích ch™p và các lÓp k∏t nËi ¶y ı. Có th∫ nói ây là

(32)

mÎt trong nh˙ng ph˜Ïng pháp tËt và nhanh nhßt hiªn nay. Ki∏n trúc cıa YOLO [8]

˜Òc mô t£ trong Hình 3.3. Trong ó các £nh ¶u vào ˜Òc phân chia thành mÎt m§ng l˜Ói 7x7. Ph˜Ïng pháp này s≥ d¸ oán xem trong mÈi ô kh£ n´ng có Ëi t˜Òng mà i∫m trung tâm n¨m  ô ó. Ngoài d¸ oán i∫m trung tâm, kích th˜Óc cıa Ëi t˜Òng YOLO [8] còn tính toán xác sußt Ëi t˜Òng ó là Ëi t˜Òng nào.

Hình 3.3: Ki∏n trúc cıa YOLO trong nghiên c˘u [8]

– phiên b£n c£i ti∏n hÏn cıa YOLO [8] là YOLOv2 [50] s˚ dˆng các hÎp cË ‡nh (anchor boxes) là các hÎp giÓi h§n ã ˜Òc cË ‡nh sÆn v∑ kích th˜Óc. Kˇ thu™t này

˜Òc giÓi thiªu trong Faster RCNN [5]. Ngoài ra còn nh˙ng thay Íi khác nh˜ s˚

dˆng chu©n hóa hàng lo§t (batch normalization) chia £nh thành 13x13 ô nh‰ và kích th˜Óc £nh ¶u vào là 416x416.

MÎt phiên b£n c£i ti∏n n˙a ó là YOLOv3 [9]  YOLOv1 [8] các tác gi£ s˚ dˆng 24 lÓp tích ch™p, sang YOLOv2 [50] thì s˚ dˆng x˜Ïng sËng là darknet19 và 11 lÓp tích ch™p n˙a ∫ nh™n d§ng. YOLOv3 [9] s˚ dˆng darknet53 có 53 lÓp tích ch™p ∫ làm x˜Ïng sËng. Ngoài ra còn các phiên b£n c£i ti∫n khác nh˜YOLOv4 [51] giúp c£i thiªn

Î chính xác và thÌi gian nh™n d§ng Ëi t˜Òng.

(33)

Hình 3.4: Ki∏n trúc cıa YOLOv3 trong nghiên c˘u [9]

3.1.2 Trích xußt thuÎc tính cıa £nh s˚ dˆng m§ng trans- former

Khi ¶u t¯ sau n´m 2017 khi ki∏n trúc transformer [52] ˜Òc công công bË và tr

thành s¸l¸a chÂn phÍbi∏n trong các bài toán v∑ x˚l˛ ngôn ng˙ t¸ nhiên. Cách ti∏p c™n chı §o cıa transformer ó là hußn luyªn mô hình vÓi mÎt kho d˙ liªu v´n b£n lÓn và sau ó tinh chønh l§i trên mÎt t™p d˙ liªu nh‰ hÏn dành riêng cho t¯ng bài toán. ∏n n´m 2020 trong nghiên c˘u [10] các tác gi£ ã công bË mô hình ViT s˚

dˆng ki∏n trúc transformer cho các bài toán v∑ th‡ giác máy. Mô hình chung cıa ki∏n trúc transformer [10] ˜Òc mô t£trong Hình 3.5,  ây£nh ¶u vào s≥ ˜Òc coi nh˜

nh˙ng t¯ trong câu và ˜Òc c≠t nh‰ thành nh˙ng m£nh 16x16 or 32x32 tùy thuÎc vào ki∏n trúc cıa m§ng. Các m£nh sau ó s≥ ˜Òc thêm véc tÏ v‡ trí và ©y vào bÎ mã hóa transformer

M§ng transformer có cÏ ch∏ hÂc t¸ giám sát. Trong nghiên c˘u [11] các tác gi£

ã thßy r¨ng y∏u tË chính d®n ∏n thành công cıa mô hình BERT [53] và GPT [54]

khi áp dˆng trong các bài toán v∑ x˚l˛ ngôn ng˙t¸nhiên ó là s˚dˆng cÏch∏ hÂc t¸

giám sát. Ph˜Ïng pháp t¸giám sát s≥ ∫ mô hình hÂc ˜Òc các ∞c trñg trong t¯ng chı th∫ vÓi chính nó, khác vÓi cÏ ch∏ hÂc các ∞c trñg trên t¯ng lÓp khi s˚ dˆng ph˜Ïng pháp có giám sát vÓi các bÎ d˙ liªu có nhãn. K∏t qu£ là các ∞c trñg khi

˜Òc trích xußt ˜Òc t¯ mô hình DINO [11] ch˘a các ch˘a thông tin rõ ràng hÏn v∑

(34)

Hình 3.5: Mô hình chung cıa ki∏n trúc transformer [10] cho £nh

phân o§n ng˙nghæa cıa hình £nh, i∑u này không ˜Òc nh™n thßy rõ ràng trong các

∞c tr˜ng t¯ m§ng CNN hay m§ng ViT[10]. HÏn n˙a các ∞c tr˜ng ho§t Îng hiªu qu£ vÓi các bÎ phân lo§i k-NN khi §t ˜Òc 78,3% top-1 trên bÎ d˙ liªu ImageNet vÓi mô hình ViT-S[10].

Chi ti∏t các b˜Óc ∫ hußn luyªn ˜Òc mô t£trong Hình 3.6. Énh ¶u vào X s≥

˜Òc i qua b˜Óc t´ng c˜Ìng £nh ∫ tr thành các £nh X1, X2. Các £nh s≥ ˜Òc bi∏n Íi sau ó c≠t nh‰, các £nh ˜Òc c≠t ra có kích th˜Óc lÓn hÏn 50% £nh gËc s≥ chø i qua mô hình giáo viên (teacher model) trong khi toàn bÎ các £nh ˜Òc c≠t s≥ i qua mô hình hÂc sinh (student model). Chính cách th˘c này s≥ s≥ thúc ©y mô hình hÂc sinh khi chø có mÎt m£nh nh‰ cıa b˘c £nh v®n ph£i bi∫u diπn nÎi dung t˜Ïng t¸ khi nhìn tÍng th∫ b˘c £nh. Khác vÓi mô hình DeiT [55] khi s˚ dˆng Resnet [3] làm mô hình giáo viên thì DINO [11] s˚dˆng mô hình ViT [10] cho c£hÂc sinh và giáo viên.

Trong cÏ ch∏ này chø có mô hình hÂc sinh là ˜Òc c™p nh™t sau mÈi l¶n hußn luyªn còn mô hình giáo viên s≥ ˜Òc bi∏n Íi t¯ chính hÂc sinh thông qua cÏ ch∏ ˜Ìng trung bình Îng hàm mÙ (exponential moving average - EMA).

D˜Ói ây là mã gi£ cıa mô hình DINO ˜Òc công bË trong bài báo [11]

(35)

Hình 3.6: TÍng quan ph˜Ïng pháp hußn luyªn mô hình DINO trong nghiên c˘u [11]

1 # gs, gt: student and teacher networks

2 # C: center (K)

3 # tps, tpt: student and teacher temperatures

4 # l, m: network and center momentum rates

5 gt.params = gs.params

6 for x in loader: # load a minibatch x with n samples

7 x1, x2 = augment(x), augment(x) # random views

8 s1, s2 = gs(x1), gs(x2) # student output n-by-K

9 t1, t2 = gt(x1), gt(x2) # teacher output n-by-K

10 loss = H(t1, s2)/2 + H(t2, s1)/2

11 loss.backward() # back-propagate

12 # student, teacher and center updates

13 update(gs) # SGD

14 gt.params = l*gt.params + (1-l)*gs.params

15 C = m*C + (1-m)*cat([t1, t2]).mean(dim=0)

16

17 def H(t, s):

18 t = t.detach() # stop gradient

19 s = softmax(s / tps, dim=1)

(36)

20 t = softmax((t - C) / tpt, dim=1) # center + sharpen

21 return - (t * log(s)).sum(dim=1).mean()

Gi£i thích: hàm Centering có tác dˆng ng´n c£n mÎt chi∑u cıa ∞c tr˜ng chi∏m

˜u th∏ nh˜ng nh˜ng i∑u này có th∫ gây nên sˆp Í mô hình do phân bË Áng ∑u, hàm sharpening s≥ có tác dˆng ng˜Òc l§i. Viªc áp dˆng c£ Centering và sharpening s≥ cân b¨ng các hiªu ˘ng. Bi∏n C ˜Òc c™p nh™t b¨ng ˜Ìng trung bình Îng hàm mÙ (EMA). – ây có th∫ coi centering nh˜ mÎt hình th˘c chu©n hóa. ¶u ra cıa sharpening thu ˜Òc b¨ng cách dùng tps nh‰ ˜Òc s˚ dˆng khi tính hàm softmax.

Chúng tôi s˚ dˆng m§ng hÂc sâu ViT-S/16 [10] s˚ dˆng ki∏n trúc transformer ã ˜Òc hußn luyªn theo cÏ ch∏ hÂc t¸ giám sát DINO [11] trên bÎd˙liªu ImageNet.

MÎt vài nh˙ng bi∏n th∫ cıa mô hình DINO ViT-S/16 trong B£ng 3.1 B£ng 3.1: Thông tin v∑ các bi∫n th∫ cıa mô hình DINO ViT

Mô hình SËchi∑u ¶u ra SË l˜Òng tham sË Î chính xác trên bÎ d˙ liªu ImageNet

DINO ViT-S/16 384 21M 74,5

DINO ViT-S/8 384 21M 78,3

DINO ViT-B/16 768 85M 76,1

DINO ViT-B/8 768 85M 74,4

Qua các ánh giá th˚nghiªm ˜Òc nêu trong Ch˜Ïng 4cho thßy ph˜Ïng pháp này em l§i hiªu qu£ cao nhßt trên t™p d˙ liªu ánh giá. Khi ˜Òc so sánh vÓi các mô hình hÂc có giám sát ˜Òc tinh chønh l§i b¨ng cách hußn luyªn vÓi bÎ d˙ liªu các

Ëi t˜Òng Á hÂa thì mô hình DINO v®n có k∏t qu£ tËt hÏn.

CÏ ch∏ cıa DINO là hÂc t¸giám sát vÓi trên t¯ng b˘c £nh nên s≥ hÂc ∞c tr˜ng

 t¯ng d˙ liªu khác vÓi cách hÂc ∫ tìm ra các ∞c trñg trên t¯ng lÓp nh˜ các mô hình hÂc có gi£m sát khác. Các i∫m m§nh cıa viªc s˚dˆng mô hình DINO ViT-S/16 trong b˜Óc trích xußt thuÎc tính cıa £nh ó là tái s˚ dˆng l§i các trÂng sË ã ˜Òc hußn luyªn sÆn và véc tÏ ∞c trñg ¶u ra cıa mô hình không b‡ quá lÓn gây khó khń trong vßn ∑ l˜u tr˙.

(37)

3.1.3 Phân lo§i hình £nh s˚ dˆng ph˜Ïng pháp k∏t hÒp

Chúng tôi th˚ nghiªm các ph˜Ïng pháp khác nhau nh˜ máy véc tÏ hÈ trÒ (support vector machine - SVM), k láng gi∑ng g¶n nhßt (k-nearest neighbors - KNN), r¯ng ng®u nhiên (random forest), phân lÓp tuy∏n tính (linear classifier) và k∏t hÒp các ph˜Ïng pháp này l§i vÓi nhau s˚ dˆng ph˜Ïng pháp k∏t hÒp (ensemble method). Các ph˜Ïng pháp này ˜Òc cài ∞t trong bÎ th˜ viªn sklearn.

3.2 Hª thËng tìm ki∏m Ëi t˜Òng Á hÂa

Mô hình chung cıa hª thËng tìm ki∏m Ëi t˜Òng Á hÂa s≥ tuân theo các hai b˜Óc nh˜ ˜Òc mô t£trong nghiên c˘u [39] chúng tôi ã tóm t≠t l§i nh˜Hình 3.7. Trong ó hª thËng s≥ chu©n b‡ sÆn các bÎd˙ liªu ∫ tr£ v∑ k∏t qu£cho ng˜Ìi dùng các £nh trong các bÎ d˙ liªu này s≥ ˜Òc trích xußt ra các ∞c tr˜ng và ˜Òc l˜u tr˙ t§i các cÏ s d˙ liªu. Khi hª thËng nh™n ˜Òc mÎt £nh ¶u vào, các £nh ó s≥ cÙng s≥ ˜Òc trích xußt thuÎc tính và s˚ dˆng các ph˜Ïng pháp ∫ tính toán m˘c Ît˜Ïng t¸gi˙a thuÎc tính cıa£nh ¶u vào và các£nh trong cÏ s d˙liªu ∫ tr£v∑ các k∏t qu£ phù hÒp nhßt.

VÓi hª thËng tìm ki∏m các Ëi t˜Òng ÁhÂa s≥ có i∫m khác biªt là chø tìm ki∏m các Ëi t˜Òng Á hÂa trong £nh v´n b£n nên chúng tôi ã thêm vào mô hình ho§t Îng mÎt b˜Óc ti∑n x˚ l˛ ó là xác ‡nh các Ëi t˜Òng Á hÂa. Các b˜Óc ho§t Îng cıa hª thËng ˜Òc mô t£nh˜trong Hình 3.8. Chi ti∏t các b˜Óc ˜Òc mô t£nh˜sau:

– Các £nh v´n b£n sau khi ˜Òc thu th™p t¯ các nguÁn khác nhau s≥ ˜Òc ©y vào hª thËng ∫ x˚l˛ qua b˜Óc xác ‡nh v‡ trí Ëi t˜Òng Á hÂa trong v´n b£n.

– ây chúng tôi s˚ dˆng mô hình YOLOv3.

– Các Ëi t˜Òng s≥ ˜Òc qua b˜Óc trích xußt thuÎc tính, chúng tôi s˚ dˆng mô hình DINO ViT-S/16. Các véc tÏ thuÎc tính s≥ ˜Òc l˜u tr˙ l§i trong cÏ s d˙

liªu b¨ng các tªp tin d§ng numpy.

– MÎt £nh Ëi t˜Òng Á hÂa muËn tìm ki∏m cÙng s≥ ˜Òc i qua mô hình DINO

(38)

Hình 3.7: Mô hình chung cıa các hª thËng tìm ki∏m £nh d¸a trên nÎi dung

∫ trích xußt thuÎc tính và tính toán Î t˜Ïng t¸ vÓi toàn bÎ các véc tÏ trong cÏ s d˙ liªu. Chúng tôi s˚dˆng Î o cô-sin ∫ tính toán m˘c Î t˜Ïng t¸.

– ∫ t´ng tËc Î tính toán m˘c Î t˜Ïng t¸ chúng tôi s˚ dˆng th˜ viªn faiss ∫ có th∫ t™n dˆng kh£ n´ng cıa bÎ x˚ l˛ Á hÂa GPU ∫ tính toán.

– K∏t qu£ ¶u ra cıa hª thËng tìm ki∏m Ëi t˜Òng Á hÂa là danh sách các v´n b£n ch˘a các Ëi t˜Òng Á hÂa ˜Òc s≠p x∏p theo Î t˜Ïng t¸ t¯lÓn ∏n nh‰.

(39)

Hình 3.8: Mô hình chung cıa hª thËng tìm ki∏m Ëi t˜Òng Á hÂa

(40)

Ch˜Ïng 4

Th¸ c nghiªm và k ∏t qu£

4.1 BÎ d˙ liªu th¸c nghiªm

B£ng 4.1: Thông tin v∑ bÎd˙ liªu IIT-AR-13K

Tên lÓp IIIT-AR-13k

Hußn luyªn ánh giá Ki∫m tra TÍng

SË l˜Òng v´n b£n 9333 1955 2120 13408

B£ng 11163 2222 2596 15981

Énh minh ho§ 2004 481 463 2948

Énh th™t 1987 438 455 2880

Bi∫u t˜Òng 379 67 135 581

Ch˙ k˛ 420 108 92 620

BÎd˙liªu gËc ˜Òc s˚dˆng trong các th¸c nghiªm là bÎIIT-AR-13K chi ti∏t v∑

sË l˜Òng các hÎp giÓi h§n và nhãn cıa chúng ˜Òc chú thích trong B£ng 4.1. Trong bài toán nh™n d§ng Ëi t˜Òng Á hÂa Ïn nhãn chúng tôi coi r¨ng các lo§i Ëi t˜Òng s≥ ∑u ˜Òc coi là “ Ëi t˜Òng ÁhÂa” nh˜v™y tÍng sËhÎp giÓi h§n và nhãn cıa chúng chú thích trong B£ng 4.2. Phân bËchi∑u rÎng chi∑u dài và tÂa Îcıa các Ëi t˜Òng

Á hÂa ˜Òc mô t£ trong Hình 4.1.

(41)

B£ng 4.2: Thông tin v∑ bÎd˙ liªu IIT-AR-13K

Tên lÓp IIIT-AR-13k Ïn nhãn

Hußn luyªn ánh giá Ki∫m tra TÍng

SË l˜Òng v´n b£n 9333 1955 2120 13408

SË l˜Òng Ëi t˜Òng Á ho§ 15953 3316 3741 23010

Hình 4.1: Phân bËv∑ sËl˜Òng và Îdài các chi∑u cıa các Ëi t˜Òng ÁhÂa trong bÎ d˙ liªu

4.2 Ph˜Ïng pháp ánh giá

Các chø sË dùng ∫ ánh giá hiªu qu£ mô hình nh™n d§ng Ëi t˜Òng Á hÂa bao gÁm:

– Îchính xác (precision): là tø lª (true positive) trong sËnh˙ng i∫m ˜Òc phân lo§i là (positive) (TP / TP + FP).

– Î hÁi t˜ng (recall) : là tø lª (true positive) trong sË nh˙ng i∫m th¸c s¸ là (positive) (TP / TP + FN).

– Intersection Over Union - (IoU) là tø lª gi˙a m˘c Î trùng khÓp gi˙a hai ˜Ìng bao ( ˜Ìng bao d¸ oán và ˜Ìng bao th¸c t∏) ∫ xác ‡nh hai khung hình có

(42)

Hình 4.2: Ví dˆ v∑ Î chính xác và Î hÁi t˜ng

b‡ è chÁng lên nhau không. T lª này ˜Òc tính d¸a trên ph¶n diªn tích giao nhau gi˙a 2 ˜Ìng bao vÓi ph¶n tÍng diªn tích giao nhau và không giao nhau gi˙a chúng.

Hình 4.3: Ví dˆ v∑ Î IoU

– [email protected]: Ta s≥ ∞t ng˜Ông IoU > 0.5 có nghæa là Ëi t˜Òng ˜Òc nh™n d§ng úng vÓi tø lª IoU> 0.5 (True positive : TP). Ëi t˜Òng ˜Òc nh™n d§ng sai vÓi

(43)

tø lª IoU < 0.5 (False positive : FP). Ëi t˜Òng không ˜Òc nh™n d§ng (False negative: FN).

Ngoài ra ∫ ánh giá hiªu qu£ hª thËng tìm ki∏m hình £nh chúng tôi s˚ dˆng Î o Recall top k. Trong ó k là sËl˜Òng £nh ˜Òc tr£ v∑ có cùng nhãn vÓi £nh ˜Òc tìm ki∏m. Trong bài toán hª thËng tìm ki∏m Ëi t˜Òng ÁhÂa trong v´n b£n các £nh ¶u vào là các Ëi t˜Òng Á hÂa ˜Òc c≠t t¯ các v´n b£n. Gi£s˚k b¨ng 5 thì k∏t qu£ tr£

v∑ ˜Òc coi là úng n∏u trong 5 k∏t qu£ ¶u tiên tr£ v∑ có tÁn t§i v´n b£n gËc ch˘a

£nh ¶u vào.

4.3 K∏t qu£ th¸c nghiªm

4.3.1 K∏t qu£ nh™n d§ng Ëi t˜Òng a nhãn

B£ng 4.3: K∏t qu£ nh™n d§ng Ëi t˜Òng a nhãn so sánh vÓi bài báo [1]

BÎ d˙ liªu ki∫m tra Lo§i Ëi t˜Òng Faster R-CNN Mask R-CNN YOLOv3

[email protected] [email protected] [email protected]

IIIT-AR-13k (Validation)

B£ng 0.9554 0.9761 0.9880

Énh minh ho§ 0.8103 0.8391 0.9390

Énh th™t 0.8803 0.9174 0.9620

Bi∫u t˜Òng 0.6217 0.6434 0.7310

Ch˙ k˛ 0.9135 0.9391 0.9580

Trung bình 0.8362 0.8630 0.9150

IIIT-AR-13k (Test)

B£ng 0.9392 0.9654 0.9840

Énh minh ho§ 0.8332 0.8686 0.9290

Énh th™t 0.8445 0.8945 0.9490

Bi∫u t˜Òng 0.4330 0.4699 0.5150

Ch˙ k˛ 0.8981 0.9115 0.9310

Trung bình 0.7896 0.8220 0.8620

(44)

K∏t qu£ khi th˚ nghiªm mô hình YOLOv3 khi ˜Òc hußn luyªn vÓi bÎ d˙ liªu IIT-AR-13k (training) sau 200 vòng và ˜Òc th˚ nghiªm trên 2 t™p d˙ liªu IIT-AR- 13k (validation) và IIT-AR-13k (test) trongB£ng 4.3. Î o dùng trong thí nghiªm là [email protected], k∏t qu£ thu ˜Òc khi em so sánh vÓi hai ph˜Ïng pháp khác là Faster R-CNN và Mask R-CNN. Trong ó k∏t qu£ cıa 2 ph˜Ïng pháp Faster R-CNN và Mask R-CNN ˜Òc lßy ra t¯ bài báo [1] cho thßy ph˜Ïng pháp YOLOv3 tËt hÏn 2 ph˜Ïng pháp cÙ.

B£ng 4.4: K∏t qu£ nh™n d§ng Ëi t˜Òng a nhãn so sánh các ph˜Ïng pháp khác BÎ d˙ liªu ki∫m tra Tên lÓp YOLOv3 YOLOv4 YOLOv5 DETR

mAP mAP mAP mAP

IIIT-AR-13k (Validation)

B£ng 0.9880 0.9890 0.9820 0.9733

Énh minh ho§ 0.9390 0.9300 0.8700 0.793 Énh th™t 0.9620 0.9540 0.8910 0.8531 Bi∫u t˜Òng 0.7310 0.8190 0.4840 0.345

Ch˙ k˛ 0.9580 0.9890 0.9350 0.5436

Trung bình 0.9150 0.9360 0.8320 0.7016

IIIT-AR-13k (Test)

B£ng 0.9840 0.9830 0.9730 0.9735 Énh minh ho§ 0.9290 0.9350 0.8640 0.8131 Énh th™t 0.9490 0.9300 0.8650 0.8369 Bi∫u t˜Òng 0.5150 0.5130 0.4620 0.153 Ch˙ k˛ 0.9310 0.9290 0.9030 0.4683 Trung bình 0.8616 0.8580 0.8130 0.6489 Chúng tôi cÙng th˚ nghiªm hußn luyªn thêm các mô hình khác nh˜ YOLOv4, YOLOv5 và DETR [56] các k∏t qu£ tÍng hÒp trong B£ng 4.4 và các k∏t qu£ chi ti∏t hÏn ˜Òc ∑ c™p trong Hình 4.4. T¯ ó có th∫ ˜a ra các k∏t lu™n sau

– k∏t qu£ cıa YOLOv4 và YOLOv5 không cao hÏn quá nhi∑u so vÓi YOLOv3.

– Mô hình DETR s˚ dˆng mÎt ki∏n trúc mÓi là transformer cho bài toán nh™n d§ng Ëi t˜Òng ch˜a em l§i k∏t qu£ th¸c s¸ cao.

(45)

Do v™y trong lu™n v´n này chúng tôi l¸a chÂn YOLOv3 làm mô hình nh™n d§ng Ëi t˜Òng Á hÂa.

Hình 4.4: Chi ti∏t so sánh YOLOv3 YOLOv4 YOLOv5 và DETR

Th˚ nghiªm vÓi các bÎ d˙ liªu khác. Chúng tôi s˚ dˆng thêm 2 bÎ d˙ liªu khác là ICDAR-19 [16] và ICDAR-2017 [15], hai bÎ d˙ liªu này chø bao gÁm các b£ng. S˚

dˆng mô hình YOLOv3 ã ˜Òc hußn luyªn trên bÎ d˙ liªu IIT-AR-13k (train) ∫

(46)

B£ng 4.5: K∏t qu£ nh™n d§ng b£ng khi so sánh vÓi các bÎ d˙ liªu khác

Tên bÎ d˙liªu

Mask R-CNN YOLOv3 YOLOv4

R P F mAP R P F mAP R P F mAP

ICDAR-19

(test) - - - - 0.7760 0.9100 0.8380 0.8100 0.6870 0.9240 0.7880 0.8260 ICDAR-19

(train) - - - - 0.8030 0.9220 0.8580 0.8620 0.6600 0.9150 0.7670 0.8390 ICDAR-19

(all) 0.8097 0.8224 0.8161 0.7478 0.7940 0.9180 0.8520 0.8450 0.6680 0.9180 0.7730 0.8390 ICDAR-17

(train) 0.8675 0.6311 0.7493 0.7509 0.8830 0.8490 0.8650 0.9070 0.8970 0.7140 0.7950 0.8890

ánh giá, k∏t qu£ ˜Òc mô t£ trong B£ng 4.5

4.3.2 K∏t qu£ nh™n d§ng Ëi t˜Òng Ïn nhãn

Qua các k∏t qu£ ˜Òc th˚ nghiªm trong bài toán nh™n d§ng Ëi t˜Òng a nhãn  ph¶n trên chúng tôi thßy r¨ng mô hình YOLOv3 hiªu qu£ trong các bài toán nh™n d§ng Ëi t˜Òng Á hÂa. Áp dˆng mô hình YOLOv3 vào bài toán chính ó là nh™n d§ng Ëi t˜Òng Ïn nhãn trong ph¶n này chúng tôi coi tßt c£ các lÓp Ëi t˜Òng ∑u chø là mÎt lo§i duy nhßt là “ Ëi t˜Òng Á hÂa”.

Mô hình khi ˜Òc hußn luyªn vÓi bÎd˙ liªu IIT-AR-13k (training) sau 150 vòng và ˜Òc th˚ nghiªm trên 2 t™p d˙ liªu IIT-AR-13k (validation) và IIT-AR-13k (test) chi ti∏t quá trình hußn luyªn ˜Òc mô t£ trong B£ng 4.6 và Hình 4.5 . Î o dùng trong thí nghiªm là Î hÁi t˜ng (Recall), Î chính xác (Precision), [email protected] và [email protected]:.95 thu ˜Òc Î chính xác khi nh™n d§ng §t xßp xø 97,7%.

(47)

B£ng 4.6: K∏t qu£ nh™n d§ng Ëi t˜Òng Ïn nhãn Î hÁi t˜ng

(Recall)

Î chính xác

(Precision) [email protected] [email protected]:.95 IIIT-AR-13k

(Validation) 0.9678 0.9657 0.978 0.8609

IIIT-AR-13k

(Test) 0.964 0.969 0.977 0.868

(a) ˜Ìng cong chính xác (b) ˜Ìng cong hÁi t˜ng (c) ˜Ìng cong F1

(d) Hàm mßt mát (e) Hàm mßt mát vÓi Box (f) Î o mAP Hình 4.5: Chi ti∏t quá trình hußn luyªn mô hình YOLOv3 nh™n d§ng Ëi t˜Òng Ïn nhãn

(48)

B£ng 4.7: BÎ d˙ liªu phân lo§i hình £nh Tên lÓp Hußn luyªn ánh giá

B£ng 30 2222

Énh minh ho§ 30 481

Énh th™t 30 438

Bi∫u t˜Òng 30 67

Ch˙ k˛ 30 108

TÍng cÎng 150 3316

B£ng 4.8: K∏t qu£ phân lo§i hình £nh s˚ dˆng ph˜Ïng pháp k∏t hÒp Mô hình trích

xußt thuÎc tính K-NN Linear

classifier SVM Random forest

Ensemble

method TËt nhßt DINO ViT-S/16 0.8496 0.8940 0.8868 0.9037 0.9077 0.9077

ViT-S/16 0.8321 0.8481 0.8651 0.8629 0.8693 0.8693 Resnet 18 0.8462 0.8959 0.8775 0.8643 0.8840 0.8959 Resnet 50 0.8516 0.8727 0.8621 0.8621 0.8749 0.8749 Efficientnet b2 0.8360 0.9034 0.8292 0.8824 0.8990 0.9034 B£ng 4.9: K∏t qu£ phân lo§i hình £nh s˚ dˆng ph˜Ïng pháp tinh chønh mô hình

Mô hình phân lo§i Î chính xác trung bình

Resnet 18 84.25

Resnet 50 83.83

Efficientnet b2 83.97

4.3.3 K∏t qu£ phân lo§i £nh Ëi t˜Òng Á hÂa

Sau b˜Óc nh™n d§ng Ëi t˜Òng Ëi t˜Òng Á hÂa trên chúng ta s≥ thu ˜Òc các £nh nh‰ ˜Òc c≠t ra t¯ v‡ trí các Ëi t˜Òng và s˚ dˆng các ph˜Ïng pháp phân lo§i hình

£nh ∫ tìm ra nhãn cıa Ëi t˜Òng Á hÂa. BÎ d˙ liªu ˜Òc s˚ dˆng ∫ hußn luyªn mô hình phân lo§i bao gÁm 30 £nh mÈi lÓp Ëi t˜Òng. BÎ d˙ liªu ánh giá cıa mô

(49)

hình là các£nh ˘ng vÓi t¯ng lÓp  cıa bÎ d˙liªu IIIT-AR-13k (Validation). Chi ti∏t sË l˜Òng £nh các lÓp ˜Òc mô t£ trong B£ng 4.7. Chúng tôi ã th˚ nghiªm vÓi hai ph˜Ïng pháp phân lo§i khác nhau:

– Ph˜Ïng pháp th˘nhßt s˚dˆng các mô hình trích xußt thuÎc tính ã ˜Òc hußn luyªn sÆn trên các bÎ d˙ liªu lÓn là ImageNet bao gÁm (DINO ViT-S/16 , ViT- S/16, Resnet18, Resnet50 và Efficientnet b2) và s˚ dˆng các ph˜Ïng pháp phân lo§i nh˜ K-NN, Linear classifier, SVM, Random forest và k∏t hÒp tßt c£ các ph˜Ïng pháp ó l§i vÓi nhau (ensemble method). K∏t qu£ ˜Òc tÍng hÒp trong B£ng 4.8, chi ti∏t các k∏t qu£vÓi cách i∑u chønh thông sË khác nhau ˜Òc mô t£ trong ph¶n phˆ lˆc. K∏t qu£ tËt nhßt thu ˜Òc khi s˚ dˆng mô hình DINO ViT-S/16 vÓi Î chính xác phân lo§i trung bình §t 90,77%.

– Ph˜Ïng pháp th˘hai chúng tôi th˚nghiªm ó là s˚dˆng các mô hình Resnet18, Resnet50 và Efficientnet b2 ã ˜Òc hußn luyªn sÆn trên các bÎ d˙ liªu lÓn là ImageNet và tinh chønh l§i b¨ng cách hußn luyªn l§i trên bÎ d˙ liªu các lÓp Ëi t˜Òng, các mô hình ˜Òc . K∏t qu£ ˜Òc tÍng hÒp trong B£ng 4.9. K∏t qu£ tËt nhßt thu ˜Òc khi s˚ dˆng mô hình Resnet18 vÓi Î chính xác phân lo§i trung bình §t 84,25%.

4.3.4 K∏t qu£ nh™n d§ng Ëi t˜Òng Á hÂa Ïn nhãn k∏t hÒp phân lo§i hình £nh

T¯ k∏t qu£ cıa hai ph˜Ïng pháp phân lo§i hình £nh ã ˜Òc mô t£ trong ph¶n trên chúng tôi l¸a chÂn ph˜Ïng pháp th˘ nhßt vÓi viªc s˚ dˆng DINO ViT-S/16 làm mô hình trích xußt thuÎc tính và k∏t hÒp các ph˜Ïng pháp phân lo§i nh˜ K-NN, Linear classifier, SVM, Random forest ∫ áp dˆng cho bài toán nh™n d§ng Ëi t˜Òng ÁhÂa.

Các k∏t qu£ thu ˜Òc khi áp dˆng ph˜Ïng pháp phân lo§i £nh sau b˜Óc nh™n diªn Ëi t˜Òng ÁhÂa Ïn nhãn ˜Òc tÍng hÒp trongB£ng 4.10 Î o ˜Òc s˚dˆng là [email protected] §t các k∏t qu£:

– 74,64% vÓi bÎ IIIT-AR-13k (Validation)

(50)

B£ng 4.10: K∏t qu£ nh™n d§ng Ëi t˜Òng ÁhÂa Ïn nhãn k∏t hÒp vÓi phân lo§i hình

£nh

IIIT-AR-13k (Validation) IIIT-AR-13k (Test)

B£ng 0.9338 0.9338

Énh minh ho§ 0.5600 0.5605

Énh th™t 0.8097 0.8097

Bi∫u t˜Òng 0.5067 0.4490

Ch˙ k˛ 0.9219 0.9219

Trung bình 0.7464 0.7350

– 73,50% vÓi bÎ IIIT-AR-13k (Test)

Ta có th∫ thßy vÓi b£ng, £nh th™t và ch˙k˛ có Î chính xác khá cao do các lÓp này có m˘c Î ∞c tr˜ng lÓn, trái l§i lÓp bi∫u t˜Òng có Î chính xác không cao do nh™p nh¨ng khi phân biªt gi˙a các bi∫u Á và b£ng và nh™p nh¨ng gi˙a bi∫u t˜Òng và£nh minh hÂa.

4.3.5 K∏t qu£ nh™n d§ng Ëi t˜Òng Á hÂa trên bÎ d˙ liªu v ´n b£n hành chính

Chúng tôi có thu th™p thêm mÎt bÎ d˙ liªu là các báo cáo tài chính, báo cáo h¨ng n´m cıa 30 công ty có vËn hóa lÓn trong bÎ chø sË ˜Òc niêm y∏t t§i s giao d‡ch Ch˘ng Khoán – TPHCM (HOSE). BÎ d˙ liªu bao gÁm 2207 £nh v´n b£n d§ng scan và £nh chˆp có Î nhiπu lÓn và 613 £nh v´n b£n d§ng kˇ thu™t sË có Î nhiπu nh‰.

Chúng tôi có s˚ dˆng ph˜Ïng pháp nh™n d§ng Ëi t˜Òng Á hÂa trên bÎ d˙ liªu này và xem xét các k∏t qu£. BÎd˙liªu này hiªn t§i ch˜a ˜Òc gán nhãn ¶y ınên chúng tôi chø nêu ra mÎt vài các ví dˆ mà không nêu ra các sË liªu cˆ th∫. MÎt vài nh˙ng tr˜Ìng hÒp nh™n d§ng Ëi t˜Òng Á hÂa chính xác trong Hình 4.6. Và các tr˜Ìng hÒp nh™n d§ng chÂn ch˜a chính xác trong Hình 4.7.

VÓi các £nh d§ng scan khi có Î nhiπu lÓn ho∞c các ˜Ìng k¥ sÂc xußt hiªn do

(51)

lÂt ánh sáng khi scan s≥ gây nên nh¶m l®n cho mô hình khi nh™n d§ng nh˙ng vùng ó là b£ng.

Hình 4.6: Các ví dˆ v∑ tr˜Ìng hÒp nh™n d§ng úng

Hình 4.7: Các ví dˆ v∑ tr˜Ìng hÒp nh™n d§ng sai

(52)

4.4 K∏t qu£ cıa hª thËng tìm ki∏m Ëi t˜Òng Á hÂa

Bô d˙ liªu dùng trong các thí nghiªm gÁm 2 ph¶n nh˜ sau:

– BÎd˙liªu dùng ∫ tìm ki∏m: bao gÁm toàn bÎcác £nh là Ëi t˜Òng ÁhÂa ˜Òc c≠t ra t¯ các hÎp giÓi h§n trong bÎ d˙ liªu IIT-AR-13k(validation) và IIT-AR- 13k(test). Các v‡ trí cıa hÎp giÓi h§n là các nhãn chu©n cıa d˙ liªu. Các £nh nh‰này s≥ ˜Òc gán tên lÓp chính là tên cıa v´n b£n ch˘a £nh ó.

– ˜a toàn bÎ các £nh trong hai t™p d˙ liªu IIT-AR-13k(validation) và IIT- AR-13k(test) vào trong mô hình YOLOv3 ã ˜Òc hußn luyªn ∫ nh™n ra các Ëi t˜Òng ÁhÂa. – ây chính là mô hình ˜Òc báo cáo trong ph¶n k∏t qu£ nh™n d§ng Ëi t˜Òng Ïn nhãn.

– ¶u ra cıa mô hình YOLOv3 này chính là v‡ trí cıa các hÎp giÓi h§n. T¯

các v‡ trí ó chúng tôi c≠t ra các £nh và ˜a qua các lo§i mô hình trích xußt thuÎc tính khác nhau bao gÁm: DINO, ViT, Resnet18, Resnet50, và Efficientnet b2.

Chi ti∏t v∑ k∏t qu£ Î o recall top k cıa hª thËng tìm ki∏m Ëi t˜Òng Á hÂa

˜Òc mô t£ trong B£ng 4.11. Trong ó ta có th∫ thßy khi s˚ dˆng DINO làm mô hình trích xußt thuÎc tính hình £nh thì k∏t qu£ tìm ki∏m §t ˜Òc cao nhßt recall top 3 §t 93,07%

B£ng 4.11: K∏t qu£ Î o recall top k cıa hª thËng tìm ki∏m vÓi các mô hình trích xußt thuÎc tính

Recall

top k B£ng Énh

minh ho§

Énh th™t

Bi∫u

t˜Òng Ch˙ k˛ Trung bình t¯ng lÓp

Trung bình t¯ng £nh DINO

1 0.8348 0.7966 0.9608 0.7612 0.9300 0.8567 0.8462

(53)

3 0.9305 0.8867 0.9866 0.8458 0.9800 0.9259 0.9307 5 0.9471 0.9078 0.9866 0.8507 0.9850 0.9354 0.9452 10 0.9651 0.9248 0.9888 0.8657 0.9850 0.9459 0.9604 50 0.9836 0.9470 0.9922 0.9005 0.9850 0.9617 0.9775

ViT

1 0.5992 0.6674 0.9474 0.7065 0.7950 0.7431 0.6610 3 0.7414 0.8061 0.9821 0.8259 0.9450 0.8601 0.7887 5 0.7864 0.8432 0.9821 0.8557 0.9600 0.8855 0.8257 10 0.8371 0.8941 0.9843 0.8706 0.9850 0.9142 0.8685 50 0.9292 0.9417 0.9888 0.9005 0.9900 0.9500 0.9393

Resnet18

1 0.8225 0.7871 0.9586 0.796 0.885 0.84984 0.8360 3 0.9193 0.8941 0.9832 0.8607 0.975 0.92646 0.9239 5 0.9421 0.9174 0.9854 0.8706 0.975 0.9381 0.9432 10 0.9585 0.9322 0.9866 0.8756 0.985 0.94758 0.9569 50 0.9819 0.9523 0.991 0.9055 0.99 0.96414 0.9771

Resnet50

1 0.8533 0.7638 0.9597 0.7562 0.9050 0.8476 0.8535 3 0.9330 0.8591 0.9854 0.8507 0.9750 0.9206 0.9286 5 0.9500 0.8867 0.9877 0.8607 0.9900 0.9350 0.9449 10 0.9624 0.9163 0.9888 0.8706 0.9900 0.9456 0.9577 50 0.9807 0.9460 0.9899 0.8856 0.9900 0.9584 0.9748

Efficientnet b2

1 0.8369 0.8061 0.9630 0.7512 0.8600 0.8434 0.8469 3 0.9205 0.8972 0.9810 0.8259 0.9650 0.9179 0.9236 5 0.9373 0.9206 0.9821 0.8358 0.9900 0.9332 0.9393 10 0.9552 0.9322 0.9832 0.8507 0.9900 0.9423 0.9537 50 0.9807 0.9544 0.9877 0.8905 0.9900 0.9607 0.9757

(54)

Ch˜Ïng 5

K∏t lu™n

Chuy∫n Íi sË, sË hóa vń b£n ã em l§i nh˙ng lÒi ích vô cùng to lÓn cho các doanh nghiªp ó là c≠t gi£m chi phí v™n hành, và tńg hiªu qu£ làm viªc. Các quy∏t ‡nh bây giÌ ˜Òc ã ra nhanh chóng và chính xác hÏn nhÌ các hª thËng báo cáo thông suËt k‡p thÌi, và tËi ˜u hóa ˜Òc nńg sußt làm viªc cıa nhân viên. Trong các doanh nghiªp sË l˜Òng các vń b£n báo cáo hàng ngày c¶n ph£i gi£i quy∏t và l˜u tr˙ ngày mÎt lÓn d®n ∏n bài toán tìm ki∏m ngày mÎt ph˘c t§p. Nhu c¶u cıa ng˜Ìi dùng ngày giÌ ây không còn chø d¯ng l§i  viªc tìm ki∏m t¯ nÎi dung vń b£n mà còn c¶n tìm ki∏m các Ëi t˜Òng Á hÂa nh˜ b£ng bi∫u, Á th‡ và bi∫u Á.

Các hª thËng tìm ki∏m ÁhÂa muËn ho§t Îng tËt thì b˜Óc ¶u tiên ó là qu£n l˛ và t§o ra chø mˆc các Ëi t˜Òng Á hÂa trong v´n b£n. ∫ có th∫ ánh chø mˆc các Ëi t˜Òng ÁhÂa thì tr˜Óc h∏t chúng ta c¶n ph£i nh™n d§ng và phát hiªn các Ëi t˜Òng này. a ph¶n các ph˜Ïng pháp và mô hình nh™n diªn Ëi t˜Òng Á hÂa trong

£nh v´n b£n hiªn nay muËn §t ˜Òc các k∏t qu£ tËt thì c¶n ph£i ˜Òc hußn luyªn trên mÎt bÎ d˙ liªu có ı hai ph¶n là v‡ trí và tên nhãn cıa Ëi t˜Òng ÁhÂa. Công s˘c ∫ gán nhãn cho các bÎ d˙liªu này là không h∑ nh‰hÏn n˙a thÌi gian b‰ra cÙng rßt lÓn. Do v™y trong lu™n v´n này chúng tôi ∑ xußt mÎt ph˜Ïng pháp có th∫ t™n dˆng bÎ d˙ liªu không ¶y ı v∑ tên nhãn cıa các lÓp ∫ nh™n d§ng các Ëi t˜Òng

Á hÂa. Nh˙ng óng góp chính cıa lu™n v´n bao gÁm.

– ∑ xußt ph˜Ïng pháp s˚ dˆng m§ng nÏ ron tích ch™p YOLO cho bài toán ‡nh

(55)

v‡ Ëi t˜Òng Á hÂa vÓi bÎ d˙ liªu chø bao gÁm các v‡ trí cıa hÎp giÓi h§n.

– ∑ xußt ph˜Ïng pháp s˚ dˆng m§ng hÂc sâu t¸ giám sát DINO cho b˜Óc trích xußt thuÎc tính hình £nh dùng trong bài toán phân lo§i các lÓp Ëi t˜Òng Á hÂa vÓi bÎ d˙liªu có sË l˜Òng £nh mÈi lÓp h§n ch∏.

– Xây d¸ng và phát tri∫n hª thËng tìm ki∏m và truy xußt các Ëi t˜Òng Á hÂa trong £nh v´n b£n.

Ph˜Ïng pháp nh™n d§ng các Ëi t˜Òng ÁhÂa trong £nh vń b£n ˜Òc trình bày trong lu™n vń ã ˜Òc th˚ nghiªm và §t k∏t qu£ xßp xø 74% trên các bÎ d˙ liªu ki∫m th˚ và ánh giá. Áp dˆng các ph˜Ïng pháp trên vào ∫ xây d¸ng nên hª thËng tìm ki∏m và truy xußt các vń b£n t¯ các Ëi t˜Òng Á hÂa cÙng §t ˜Òc các k∏t qu£ Î hÁi t˜ng §t 93,3%.

M∞c dù các k∏t qu£trên bÎd˙liªu có Îhiªu qu£tËt nhñg khi áp dˆng ph˜Ïng pháp nh™n d§ng các Ëi t˜Òng ÁhÂa trên các vń b£n có Înhiπu lÓn và có n∏p gßp khó nh˜ £nh chˆp ho∞c £nh scan vń b£n thì ph˜Ïng pháp v®n chã ho§t Îng hiªu qu£. Do v™y h˜Óng nghiên c˘u trong t˜Ïng lai là c¶n c£i thiªn Î chính xác vÓi các vń b£n có Î nhiπu lÓn nh˜ các £nh chˆp và £nh scan.

(56)

Tài liªu tham kh£o

[1] Ajoy Mondal, Peter Lipps, and CV Jawahar. Iiit-ar-13k: a new dataset for graphical object detection in documents. In International Workshop on Document Analysis Systems, pages 216–230. Springer, 2020.

[2] Mingxing Tan and Quoc Le. Efficientnet: Rethinking model scaling for convolutional neural networks. In International Conference on Machine Learning, pages 6105–6114. PMLR, 2019.

[3] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016.

[4] Ian J Goodfellow, Jonathon Shlens, and Christian Szegedy. Explaining and har- nessing adversarial examples. arXiv preprint arXiv:1412.6572, 2014.

[5] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. Advances in neural information processing systems, 28:91–99, 2015.

[6] Kaiming He, Georgia Gkioxari, Piotr Dollár, and Ross Girshick. Mask r-cnn.

In Proceedings of the IEEE international conference on computer vision, pages 2961–2969, 2017.

[7] Jonathan Long, Evan Shelhamer, and Trevor Darrell. Fully convolutional networks for semantic segmentation. InProceedings of the IEEE conference on computer vision and pattern recognition, pages 3431–3440, 2015.

(57)

[8] Joseph Redmon, Santosh Divvala, Ross Girshick, and Ali Farhadi. You only look once: Unified, real-time object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 779–788, 2016.

[9] Joseph Redmon and Ali Farhadi. Yolov3: An incremental improvement. arXiv preprint arXiv:1804.02767, 2018.

[10] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xi- aohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929, 2020.

[11] Mathilde Caron, Hugo Touvron, Ishan Misra, Hervé Jégou, Julien Mairal, Piotr Bojanowski, and Armand Joulin. Emerging properties in self-supervised vision transformers. arXiv preprint arXiv:2104.14294, 2021.

[12] Minghao Li, Yiheng Xu, Lei Cui, Shaohan Huang, Furu Wei, Zhoujun Li, and Ming Zhou. Docbank: A benchmark dataset for document layout analysis. arXiv preprint arXiv:2006.01038, 2020.

[13] Max G¨obel, Tamir Hassan, Ermelinda Oro, and Giorgio Orsi. Icdar 2013 table competition. In 2013 12th International Conference on Document Analysis and Recognition, pages 1449–1453. IEEE, 2013.

[14] Xu Zhong, Jianbin Tang, and Antonio Jimeno Yepes. Publaynet: largest dataset ever for document layout analysis. In2019 International Conference on Document Analysis and Recognition (ICDAR), pages 1015–1022. IEEE, 2019.

[15] Liangcai Gao, Xiaohan Yi, Zhuoren Jiang, Leipeng Hao, and Zhi Tang. Icdar2017 competition on page object detection. In 2017 14th IAPR International Confer- ence on Document Analysis and Recognition (ICDAR), volume 1, pages 1417–

1422. IEEE, 2017.

[16] Liangcai Gao, Yilun Huang, Hervé Déjean, Jean-Luc Meunier, Qinqin Yan, Yu Fang, Florian Kleber, and Eva Lang. Icdar 2019 competition on table de-

(58)