Image Cover
Avatar

Viblo AI

@ai

Báo cáo

Bài viết được ghim

Đóng góp của bài báo

Kết quả training có độ chính xác cao là rất tốt tuy nhiên việc tối ưu thời gian, tài nguyên training và inference của model cũng quan trọng không kém 😄 Được giới thiệu lần đầu vào năm 2020, EfficientNet là một họ các mô hình hiệu suất cao được tối ưu hóa cho việc huấn luyện hiệu quả trên các tác vụ liên quan đến hình ảnh. Với việc kết hợp phương pháp scaling và compound s...

1.5K
2
0 0

Tất cả bài viết

Thumbnail Image
228
3
1 0
Avatar Viblo AI thg 11 1, 2023 9:00 SA
6 phút đọc

Paper reading | Scaling Language-Image Pre-training via Masking

Động lực và đóng góp

Các model Language-supervised visual pre-training điển hình như CLIP thể hiện được sự mạnh mẽ trong việc học các biểu diễn chung giữa hình ảnh và ngôn ngữ tự nhiên. Mặt khác, CLIP cũng tận dụng được việc sử dụng các pretrained encoder, điều này này cải thiện đáng kể hiệu suất cho các task multimodel và cả unimodel.

Tuy nhiên, do sự phức tạp của việc training multimodel hì...

Thumbnail Image
119
3
0 0
Avatar Viblo AI thg 10 24, 2023 8:16 SA
12 phút đọc

[Paper Reading] Hydra Attention: Efficient Attention with Many Heads

Giới thiệu chung Transformer thể hiện được sức mạnh vượt trội trong nhiều tác vụ AI nói chung và Computer Vision nói riêng, nếu đã là một người học tập và nghiên cứu về AI hẳn bạn không thể không biết để mô hình rất mạnh này 😄. Tuy nhiên, việc áp dụng Transformer vào những hình ảnh có kích thước lớn vẫn tồn tại một số khó khăn về mặt tính toán. Một lý do lớn cho điều này là self-attention tỷ l...

Thumbnail Image
93
3
0 0
Avatar Viblo AI thg 10 24, 2023 8:16 SA
7 phút đọc

Paper reading | Neural News Recommendation with Multi-Head Self-Attention

1. Động lực

Các hệ thống gợi ý tin tức giúp cho người dùng tìm được những tin bài mà họ thật sự muốn quan tâm. Việc mô hình hóa chính xác các tin tức và thông tin user là rất cần thiết cho hệ thống gợi ý tin tức. Đặc biệt, nắm bắt được context của các từ và tin bài là ý tưởng chủ chốt để học được những biểu diễn của tin bài và user.

2. Đóng góp

Nhóm tác giả đề xuất cách tiếp cận mô hình hó...

Thumbnail Image
727
6
0 0
Avatar Viblo AI thg 9 9, 2023 8:00 SA
9 phút đọc

Paper reading | Real-time Scene Text Detection with Differentiable Binarization

Động lực và đóng góp Bài toán text detection luôn nhận được quan tâm nghiên cứu do tính ứng dụng thực tiễn của chúng. Mục tiêu là ta sẽ tìm vị trí của text trong văn bản hoặc video. Gần giống với bài toán object detection, ta có thể coi text trong ảnh là một loại 'object', do đó các phương pháp object detection cũng phù hợp với bài text detection. Tuy nhiên, các bài toán text detection thường c...

Thumbnail Image
203
5
0 1
Avatar Viblo AI thg 9 8, 2023 8:00 SA
14 phút đọc

Paper reading | NEURAL TOPIC MODEL VIA OPTIMAL TRANSPORT

Giới thiệu

Các Neural Topic Models được sự chú ý trong giới research nhờ có kết quả đầy hứa hẹn trong task text analysis 😄. Một topic model điển hình có mục tiêu là khám phá tập các latent topics trong một tập các văn bản. Gần đây, sự phát triển của Variational AutoEncoders (VAEs) và Autoencoding Variational Inference (AVI) tạo cơ sở cho việc xây dựng các Neural Topic Models (NTM). Được lấy c...

Thumbnail Image
723
3
0 1
Avatar Viblo AI thg 9 7, 2023 8:00 SA
14 phút đọc

Paper reading | Imagen, mô hình sinh ảnh từ văn bản mạnh mẽ

1. Động lực

Các mô hình text-to-image model được nhận nhiều sự quan tâm nhờ khả năng sáng tạo ra những hình ảnh rất thú vị từ đoạn văn bản mô tả cho trước. Những mô hình là công cụ hỗ trợ con người rất nhiều trong việc xây dựng những content hình ảnh và nhiều ứng dụng khác.

2. Đóng góp

Trong bài báo, nhóm tác giả tại Google Research trình bày mô hình Imagen, mô hình sinh hình ảnh từ văn bả...

Thumbnail Image
693
4
0 0
Avatar Viblo AI thg 8 27, 2023 8:00 SA
14 phút đọc

Paper reading | BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transformer

1. Động lực

Việc mô hình hóa mối quan tâm của người dùng dựa vào lịch sử hành vi là rất quan trọng đối với mọi hệ thống gợi ý. Các phương pháp trước đây sử dụng các sequential neural network để encode lịch sử tương tác của người dùng từ trái sang phải thành các biểu diễn ẩn để thực hiện gợi ý. Mặc dù có những hiệu quả nhất định, tuy nhiên cách làm này vẫn tồn tại một số hạn chế:

  • Các cấu tr...
Thumbnail Image
289
6
0 0
Avatar Viblo AI thg 8 25, 2023 8:00 SA
12 phút đọc

Paper reading | Next-ViT: Next Generation Vision Transformer for Efficient Deployment in Realistic Industrial Scenarios

1. Động lực

Các model Transformers based đạt kết quả SOTA nhưng lại ít khi được sử dụng trong thực tế với các bài toán Computer vision do thời gian infer của chúng thường rất chậm (lý do này đến từ cơ chế attention và model được thiết kế phức tạp). Điều này dẫn đến một ý tưởng mới: Liệu ta có thể thiết kế một mạng học sâu cho hình ảnh có tốc độ infer nhanh như các mạng CNNs và độ chính xác nh...

Thumbnail Image
185
3
0 0
Avatar Viblo AI thg 8 24, 2023 8:00 SA
11 phút đọc

Paper Reading | ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders

1. Động lực

Các bài toán Computer Vision ngày càng đạt hiệu suất cao nhờ sự phát triển về kiến trúc mô hình và các framework hiện đại. Tuy được thiết kế theo hướng supervised learning trên tập ImageNet đã được gán nhãn nhưng các model này vẫn có tiềm năng cải thiện hơn nữa theo cách tiếp cận self-supervised learning ví dụ như Masked autoencoders (MAE). Tuy nhiên, nhóm tác giả nhận thấy là kết...

Thumbnail Image
325
5
0 0
Avatar Viblo AI thg 8 11, 2023 9:00 SA
7 phút đọc

Paper reading | Neural News Recommendation with Multi-Head Self-Attention

1. Động lực

Các hệ thống gợi ý tin tức giúp cho người dùng tìm được những tin bài mà họ thật sự muốn quan tâm. Việc mô hình hóa chính xác các tin tức và thông tin user là rất cần thiết cho hệ thống gợi ý tin tức. Đặc biệt, nắm bắt được context của các từ và tin bài là ý tưởng chủ chốt để học được những biểu diễn của tin bài và user.

2. Đóng góp

Nhóm tác giả đề xuất cách tiếp cận mô hình hó...

Thumbnail Image
177
3
1 0
Avatar Viblo AI thg 8 9, 2023 10:00 SA
12 phút đọc

Paper Reading | Hydra Attention: Efficient Attention with Many Heads

Giới thiệu chung Transformer thể hiện được sức mạnh vượt trội trong nhiều tác vụ AI nói chung và Computer Vision nói riêng, nếu đã là một người học tập và nghiên cứu về AI hẳn bạn không thể không biết để mô hình rất mạnh này 😄. Tuy nhiên, việc áp dụng Transformer vào những hình ảnh có kích thước lớn vẫn tồn tại một số khó khăn về mặt tính toán. Một lý do lớn cho điều này là self-attention tỷ l...

Thumbnail Image
327
2
0 0
Avatar Viblo AI thg 7 25, 2023 3:47 SA
12 phút đọc

Paper reading | Neural News Recommendation with Long and Short-term User Representations

1. Động lực

Việc cá nhân hóa trong gợi ý tin bài là rất quan trọng với các nền tảng đọc báo online hiện tại, điều này làm tăng trải nghiệm người dùng lên đáng kể. Một vấn đề cốt lõi của gợi ý tin bài là học chính xác biểu diễn của user để nắm bắt được mối quan tâm của họ. Thường người dùng có sở thích ngắn hạn và dài hạn nhưng các hệ thống gợi ý hiện tại chỉ tập trung vào học biểu diễn đơn lẻ...

Thumbnail Image
260
4
0 0
Avatar Viblo AI thg 7 20, 2023 3:18 CH
17 phút đọc

Paper Reading | DIT: SELF-SUPERVISED PRE-TRAINING FOR DOCUMENT IMAGE TRANSFORMER

Giới thiệu chung

Các bài toán trích xuất thông tin từ hình ảnh luôn được nhận sự quan tâm vì tính ứng dụng rộng rãi. Đặc biệt trong các bài toán liên quan đến trích xuất thông tin từ ảnh tài liệu. Trong vài năm trở lại đây, Transformer trở thành một game changer, không chỉ đạt những kết quả ấn tượng trong các tác vụ về Natural language processing mà những tác vụ Computer Vision cũng đạt những ...

Thumbnail Image
683
3
1 1
Avatar Viblo AI thg 6 29, 2023 6:19 SA
11 phút đọc

Paper Reading | ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

Giới thiệu chung

Các mô hình Vision-and-Language pretraining (VLP) tỏ ra hiệu quả trong việc cải thiện các downstream task liên quan đến sự kết hợp thông tin cả ngôn ngữ và hình ảnh. Để đưa vào mô hình VLP, các pixel ảnh cần được embed cùng với các language token. Với bước embed ảnh thì không còn xa lạ rồi, ta có thể sử dụng những mạng CNN phổ biến 😄

Cho đến nay, hầu hết các nghiên cứu VLP đ...

Thumbnail Image
254
1
2 0
Avatar Viblo AI thg 6 7, 2023 8:41 SA
11 phút đọc

Paper reading | MOBILEVIT: LIGHT-WEIGHT, GENERAL-PURPOSE, AND MOBILE-FRIENDLY VISION TRANSFORMER

Giới thiệu chung Các mô hình CNN đạt được kết quả SOTA trong các task về mobile vision. Spatial inductive bias cho phép những mô hình này học với ít tham số hơn với các task Computer Vision khác nhau. Tuy nhiên, những mạng CNN có tính cục bộ về mặt không gian. Để có thể học được global representations, self-attention based vision transformer được sử dụng. Tuy đạt được kết quả chính xác cao, như...

Thumbnail Image
334
3
1 0
Avatar Viblo AI thg 5 17, 2023 7:22 SA
9 phút đọc

Paper reading | Neural News Recommendation with Attentive Multi-View Learning

1. Động lực

Việc cá nhân hóa trong gợi ý tin bài là rất quan trọng với các nền tảng đọc báo online hiện tại, điều này làm tăng trải nghiệm người dùng lên đáng kể. Các phương pháp gợi ý hiện tại chỉ dựa vào biểu diễn thông tin đơn lẻ của tin bài (ví dụ: title, body,...) và như thế là chưa đủ. Do vậy, cần một cách tiếp cận khác để tăng độ chính xác trong việc gợi ý tin bài cho người dùng.

2. ...

Thumbnail Image
1.9K
4
1 0
Avatar Viblo AI thg 5 12, 2023 5:55 SA
11 phút đọc

Paper Reading | ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders

1. Động lực

Các bài toán Computer Vision ngày càng đạt hiệu suất cao nhờ sự phát triển về kiến trúc mô hình và các framework hiện đại. Tuy được thiết kế theo hướng supervised learning trên tập ImageNet đã được gán nhãn nhưng các model này vẫn có tiềm năng cải thiện hơn nữa theo cách tiếp cận self-supervised learning ví dụ như Masked autoencoders (MAE). Tuy nhiên, nhóm tác giả nhận thấy là kết...

Mayfest2023 Deep Learning
Viblo
Hãy đăng ký một tài khoản Viblo để nhận được nhiều bài viết thú vị hơn.
Đăng kí