Image Cover
Avatar

Viblo AI

@ai

Report

Pinned Posts

Đóng góp của bài báo

Kết quả training có độ chính xác cao là rất tốt tuy nhiên việc tối ưu thời gian, tài nguyên training và inference của model cũng quan trọng không kém 😄 Được giới thiệu lần đầu vào năm 2020, EfficientNet là một họ các mô hình hiệu suất cao được tối ưu hóa cho việc huấn luyện hiệu quả trên các tác vụ liên quan đến hình ảnh. Với việc kết hợp phương pháp scaling và compound s...

299
2
0 0

All posts

Thumbnail Image
330
2
0 0
Avatar Viblo AI thg 12 21, 2023 8:00 SA
4 min read

Paper reading | Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning

Đóng góp bài báo

Trong bài báo, nhóm tác giả nghiên cứu sự kết hợp của 2 ý tưởng có thể coi là kinh điển trong lịch sử các mô hình CNN nổi tiếng là Residual connection và phiên bản mới nhất của kiến trúc Inception 😄.

Residual connection (xem hình dưới) đóng vai trò quan trọng trong việc training các mạng deep learning sâu.

Inception cũng là một kiểu mạng deep learning "rất là deep" 😄 nên l...

Thumbnail Image
237
3
1 0
Avatar Viblo AI thg 12 19, 2023 8:00 SA
8 min read

Paper reading | GRAPH ATTENTION NETWORKS

Giới thiệu

Các mô hình CNN thể hiện sự mạnh mẽ khi áp dụng vào những bài toán có dữ liệu là hình ảnh ví dụ như image classification, semantic segmentation, object detection,... trong đó dữ liệu hình ảnh có biểu diễn cấu trúc ở dạng lưới. Khi đó, ta có thể sử dụng các filter (bộ lọc) trong mạng CNN trượt qua hình ảnh để trích xuất các đặc trưng. Tuy nhiên, dữ liệu có những biểu diễn phức tạp hơ...

Thumbnail Image
60
2
0 1
Avatar Viblo AI thg 12 16, 2023 8:00 SA
6 min read

Paper reading | ACTION-Net: Multipath Excitation for Action Recognition

Đóng góp của bài báo

Trong các bài toán liên quan tới video, thông tin cần nắm bắt không chỉ là thông tin về mặt không gian (spatial information) giống như hình ảnh mà còn là thông tin về thời gian (temporal information) và sự phụ thuộc của chúng. Ví dụ, cho 2 video thực hiện hành động như sau, video 1 là video mà một người xoay nắm đấm cửa theo chiều kim đồng hồ, video 2 là video mà một người...

Thumbnail Image
114
2
0 0
Avatar Viblo AI thg 12 14, 2023 8:00 SA
8 min read

Paper reading | VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking

Đóng góp của bài báo

Việc sử dụng một model pretrained tốt là rất cần thiết để giải quyết những bài toán yêu cầu độ chính xác cao mà không phải train lại từ đầu. Các model pretrained này cần có khả năng tổng quát hóa tốt để có thể áp dụng vào các downstream task khác nhau. Trong xử lý ngôn ngữ tự nhiên, ta đã nghe rất nhiều tới mô hình ngôn ngữ lớn (large language model - LLM), việc mở rộng kí...

Thumbnail Image
206
4
0 0
Avatar Viblo AI thg 11 8, 2023 9:00 SA
9 min read

Paper reading | VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training

Đóng góp của bài báo

Để train hiệu quả các mô hình vision transformer (ViT) cần bộ dữ liệu được gán nhãn lớn. Các model ViT đạt được kết quả SOTA khi được train trên hàng trăm triệu ảnh được gán nhãn. Tuy nhiên, việc sử dụng video transformer còn nhiều hạn chế vể mặt hiệu suất do phụ thuộc vào pretrain của các model ViT trên ảnh. Do đó, bài toán ở đây là làm như nào để có thể train hiệu quả mo...

Thumbnail Image
149
3
0 0
Avatar Viblo AI thg 11 8, 2023 8:00 SA
7 min read

Paper reading | Video Swin Transformer

Đóng góp của bài báo

Kiến trúc Transformer ngày càng chiếm sóng trên mọi mặt trận 😄 cụ thể trong các bài toán liên quan tới lĩnh vực Computer Vision. Bài báo được giới thiệu dưới đây đề xuất một kiến trúc backbone thuần transformer cho bài toán video recognition. Mô hình được đề xuất được dựa trên mô hình nổi tiếng là Swin Transformer được tinh chỉnh để sử dụng cho Video có tên là Video Swin ...

Thumbnail Image
80
3
0 0
Avatar Viblo AI thg 11 6, 2023 9:00 SA
10 min read

Paper reading | ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices

Đóng góp của bài báo

Việc thiết kế những model nhỏ, nhẹ, chính xác để có thể tích hợp trên các thiết bị di động luôn là bài toán hay thách thức những người thiết kế model AI 😄 Bài báo giới thiệu model ShuffleNet là một mô hình CNN nhẹ được thiết kế cho thiết bị di động có sức mạnh tính toán 10-150 MFLOPS. Nếu như bạn chưa biết thi MFLOPS là viết tắt của "Millions of Floating-point Operations ...

Thumbnail Image
44
2
0 0
Avatar Viblo AI thg 11 6, 2023 8:00 SA
12 min read

Paper reading | Rethinking Video ViTs: Sparse Video Tubes for Joint Image and Video Learning

Đóng góp của bài báo

Video Understanding là một bài toán hay và khó trong các task về Computer Vision 😄. Có nhiều kiến trúc mô hình được đề xuất để giải quyết bài toán này. Không như hình ảnh, ngoài capture spatio information các mô hình cần có khả năng capture được temporal information. Đa phần các mô hình trước đây đều tận dụng pretrained của các model hình ảnh cho model video. Tuy nhiên, k...

Thumbnail Image
57
0
1 0
Avatar Viblo AI thg 11 3, 2023 9:00 SA
12 min read

Paper reading | Expanding Language-Image Pretrained Models for General Video Recognition

Giới thiệu chung

Video recognition là một lĩnh vực trong trí tuệ nhân tạo (AI) và thị giác máy tính tập trung vào việc phân tích và nhận dạng nội dung trong các video. Mục tiêu của video recognition là hiểu về các hình ảnh, đối tượng, hành động và sự tương tác trong video giống như cách con người làm. Công nghệ video recognition đã phát triển đáng kể nhờ sự tiến bộ trong AI, xử lý ảnh và tài n...

Thumbnail Image
35
2
1 0
Avatar Viblo AI thg 11 3, 2023 8:00 SA
13 min read

Paper reading | ZipIt! Merging Models from Different Tasks without Training

Giới thiệu chung

Các model hình ảnh ngày càng phát triển mạnh với khả năng thực hiện chính xác được nhiều task khác nhau, từ classification với hàng nghìn class cho đến những task về object detection, instance segmentation, image generation 😄 Tuy phát triển nhanh và mạnh như vậy nhưng các model này cũng có một số vấn đề tiềm ẩn:

  • Các model chỉ thực hiện được trên các task được train, nếu ta ...
Thumbnail Image
72
3
0 0
Avatar Viblo AI thg 11 1, 2023 9:00 SA
6 min read

Paper reading | Scaling Language-Image Pre-training via Masking

Động lực và đóng góp

Các model Language-supervised visual pre-training điển hình như CLIP thể hiện được sự mạnh mẽ trong việc học các biểu diễn chung giữa hình ảnh và ngôn ngữ tự nhiên. Mặt khác, CLIP cũng tận dụng được việc sử dụng các pretrained encoder, điều này này cải thiện đáng kể hiệu suất cho các task multimodel và cả unimodel.

Tuy nhiên, do sự phức tạp của việc training multimodel hì...

Thumbnail Image
71
3
0 0
Avatar Viblo AI thg 10 24, 2023 8:16 SA
12 min read

[Paper Reading] Hydra Attention: Efficient Attention with Many Heads

Giới thiệu chung Transformer thể hiện được sức mạnh vượt trội trong nhiều tác vụ AI nói chung và Computer Vision nói riêng, nếu đã là một người học tập và nghiên cứu về AI hẳn bạn không thể không biết để mô hình rất mạnh này 😄. Tuy nhiên, việc áp dụng Transformer vào những hình ảnh có kích thước lớn vẫn tồn tại một số khó khăn về mặt tính toán. Một lý do lớn cho điều này là self-attention tỷ l...

Thumbnail Image
72
3
0 0
Avatar Viblo AI thg 10 24, 2023 8:16 SA
7 min read

Paper reading | Neural News Recommendation with Multi-Head Self-Attention

1. Động lực

Các hệ thống gợi ý tin tức giúp cho người dùng tìm được những tin bài mà họ thật sự muốn quan tâm. Việc mô hình hóa chính xác các tin tức và thông tin user là rất cần thiết cho hệ thống gợi ý tin tức. Đặc biệt, nắm bắt được context của các từ và tin bài là ý tưởng chủ chốt để học được những biểu diễn của tin bài và user.

2. Đóng góp

Nhóm tác giả đề xuất cách tiếp cận mô hình hó...

Thumbnail Image
285
6
0 0
Avatar Viblo AI thg 9 9, 2023 8:00 SA
9 min read

Paper reading | Real-time Scene Text Detection with Differentiable Binarization

Động lực và đóng góp Bài toán text detection luôn nhận được quan tâm nghiên cứu do tính ứng dụng thực tiễn của chúng. Mục tiêu là ta sẽ tìm vị trí của text trong văn bản hoặc video. Gần giống với bài toán object detection, ta có thể coi text trong ảnh là một loại 'object', do đó các phương pháp object detection cũng phù hợp với bài text detection. Tuy nhiên, các bài toán text detection thường c...

Thumbnail Image
65
4
0 1
Avatar Viblo AI thg 9 8, 2023 8:00 SA
14 min read

Paper reading | NEURAL TOPIC MODEL VIA OPTIMAL TRANSPORT

Giới thiệu

Các Neural Topic Models được sự chú ý trong giới research nhờ có kết quả đầy hứa hẹn trong task text analysis 😄. Một topic model điển hình có mục tiêu là khám phá tập các latent topics trong một tập các văn bản. Gần đây, sự phát triển của Variational AutoEncoders (VAEs) và Autoencoding Variational Inference (AVI) tạo cơ sở cho việc xây dựng các Neural Topic Models (NTM). Được lấy c...

Thumbnail Image
313
3
0 1
Avatar Viblo AI thg 9 7, 2023 8:00 SA
14 min read

Paper reading | Imagen, mô hình sinh ảnh từ văn bản mạnh mẽ

1. Động lực

Các mô hình text-to-image model được nhận nhiều sự quan tâm nhờ khả năng sáng tạo ra những hình ảnh rất thú vị từ đoạn văn bản mô tả cho trước. Những mô hình là công cụ hỗ trợ con người rất nhiều trong việc xây dựng những content hình ảnh và nhiều ứng dụng khác.

2. Đóng góp

Trong bài báo, nhóm tác giả tại Google Research trình bày mô hình Imagen, mô hình sinh hình ảnh từ văn bả...

Thumbnail Image
182
4
0 0
Avatar Viblo AI thg 8 27, 2023 8:00 SA
14 min read

Paper reading | BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transformer

1. Động lực

Việc mô hình hóa mối quan tâm của người dùng dựa vào lịch sử hành vi là rất quan trọng đối với mọi hệ thống gợi ý. Các phương pháp trước đây sử dụng các sequential neural network để encode lịch sử tương tác của người dùng từ trái sang phải thành các biểu diễn ẩn để thực hiện gợi ý. Mặc dù có những hiệu quả nhất định, tuy nhiên cách làm này vẫn tồn tại một số hạn chế:

  • Các cấu tr...
Thumbnail Image
174
5
0 0
Avatar Viblo AI thg 8 25, 2023 8:00 SA
12 min read

Paper reading | Next-ViT: Next Generation Vision Transformer for Efficient Deployment in Realistic Industrial Scenarios

1. Động lực

Các model Transformers based đạt kết quả SOTA nhưng lại ít khi được sử dụng trong thực tế với các bài toán Computer vision do thời gian infer của chúng thường rất chậm (lý do này đến từ cơ chế attention và model được thiết kế phức tạp). Điều này dẫn đến một ý tưởng mới: Liệu ta có thể thiết kế một mạng học sâu cho hình ảnh có tốc độ infer nhanh như các mạng CNNs và độ chính xác nh...

Thumbnail Image
85
3
0 0
Avatar Viblo AI thg 8 24, 2023 8:00 SA
11 min read

Paper Reading | ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders

1. Động lực

Các bài toán Computer Vision ngày càng đạt hiệu suất cao nhờ sự phát triển về kiến trúc mô hình và các framework hiện đại. Tuy được thiết kế theo hướng supervised learning trên tập ImageNet đã được gán nhãn nhưng các model này vẫn có tiềm năng cải thiện hơn nữa theo cách tiếp cận self-supervised learning ví dụ như Masked autoencoders (MAE). Tuy nhiên, nhóm tác giả nhận thấy là kết...

Thumbnail Image
101
5
0 0
Avatar Viblo AI thg 8 11, 2023 9:00 SA
7 min read

Paper reading | Neural News Recommendation with Multi-Head Self-Attention

1. Động lực

Các hệ thống gợi ý tin tức giúp cho người dùng tìm được những tin bài mà họ thật sự muốn quan tâm. Việc mô hình hóa chính xác các tin tức và thông tin user là rất cần thiết cho hệ thống gợi ý tin tức. Đặc biệt, nắm bắt được context của các từ và tin bài là ý tưởng chủ chốt để học được những biểu diễn của tin bài và user.

2. Đóng góp

Nhóm tác giả đề xuất cách tiếp cận mô hình hó...

Viblo
Let's register a Viblo Account to get more interesting posts.