Viblo AI

@ai

Báo cáo

Bài viết được ghim

Viblo AI

thg 12 28, 2023 8:00 SA 14 phút đọc

Paper reading | EfficientNetV2: Smaller Models and Faster Training

Đóng góp của bài báo

Kết quả training có độ chính xác cao là rất tốt tuy nhiên việc tối ưu thời gian, tài nguyên training và inference của model cũng quan trọng không kém Được giới thiệu lần đầu vào năm 2020, EfficientNet là một họ các mô hình hiệu suất cao được tối ưu hóa cho việc huấn luyện hiệu quả trên các tác vụ liên quan đến hình ảnh. Với việc kết hợp phương pháp scaling và compound s...

Deep Learning

816

Viblo AI

Paper reading | Video Swin Transformer

Deep Learning Transformer

280

Viblo AI

Paper Reading | DIT: SELF-SUPERVISED PRE-TRAINING FOR DOCUMENT IMAGE TRANSFORMER

Deep Learning Machine Learning sharpComputerVision

196

Viblo AI

Paper Reading | ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

Machine Learning Transformer

476

Viblo AI

Paper reading | MOBILEVIT: LIGHT-WEIGHT, GENERAL-PURPOSE, AND MOBILE-FRIENDLY VISION TRANSFORMER

Deep Learning Machine Learning

204

Viblo AI

Paper Reading | ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders

Mayfest2023 Deep Learning

1.0K

Tất cả bài viết

391

Viblo AI thg 5 3, 2024 12:00 CH

9 phút đọc

Boruta - Một thuật toán mạnh mẽ cho lựa chọn đặc trưng

Feature selection là một bước cơ bản trong các Machine learning pipeline. Ta có trong tay một đống "thập cẩm" các feature, công việc bây giờ là chọn những feature quan trọng và bỏ những feature không cần thiết đi. Mục tiêu là đơn giản hóa vấn đề bằng cách xóa đi các feature có thể dẫn đến nhiễu không cần thiết.

Boruta là một thuật toán hiệu quả được thiết kế để tự động thực hiện feature select...

Deep Learning Machine Learning

1.8K

Viblo AI thg 4 17, 2024 9:00 SA

8 phút đọc

Tìm hiểu về Swin Transformers

Giới thiệu chung

Ngoài các model CNN thì các model họ Transformer cũng đạt những kết quả ấn tượng khi sử dụng trong các task về Computer Vision như object detection, image classification, semantic segmentation,... Mô hình Transformer đầu tiên được sử dụng trong Computer Vision là ViT (Vision Transformer) đã cho những kết quả SOTA tại thời điểm ra mắt. Các mô hình Transformer cải tiến khác cho ...

Machine Learning

768

Viblo AI thg 3 21, 2024 8:00 SA

10 phút đọc

Lựa chọn Feature sao cho đúng?

Đa phần trong chúng ta khi thực hiện feature-selection đều sử dụng "SelectFromModel" (một module của Scikit-learn). Thường thì công việc ta sẽ làm như sau:

Bạn chọn một mô hình dự đoán (ta sẽ gọi nó là WhatevBoost)
Thực hiện fit WhatevBoost với tất cả feature
Trích xuất những feature quan trọng từ WhatevBoost
Loại bỏ tất cả những feature có threshold thấp hơn mong muốn và giữ lại nh...

Machine Learning

976

Viblo AI thg 3 8, 2024 8:00 SA

15 phút đọc

Model của bạn thật sự tốt hay chỉ là một sự may mắn?

Nếu từng tham gia các cuộc thi trên Kaggle, bạn sẽ thấy rằng, chỉ cần chênh lệch 0.01% kết quả cũng sẽ làm bạn thằng $100.000 hoặc không có gì trong tay Lấy ví dụ về cuộc thi Data Science Bowl 2017 Giải thưởng $500.000 cho đội được giải nhất, 200.000 cho đội đứng thứ hai và 100.000 cho đội đứng thứ ba. Metric dùng để đánh giá là log-loss. Dưới đây là bảng xếp hạng của cuộc thi

Nhìn thử vào...

KhaiButDauXuan Deep Learning Machine Learning

2.0K

Viblo AI thg 2 22, 2024 8:00 SA

15 phút đọc

Few-Shot Learning cho phân loại hình ảnh

Giới thiệu chung

Một vấn đề khi sử dụng các model Deep Learning là không phải lúc nào ta cũng có đủ lượng dữ liệu để train. Khi làm việc với các tác vụ Computer Vision, bạn thỉnh thoảng (hoặc thường xuyên ) gặp vấn đề đó là chỉ có 1-2 mẫu trên một class. Đây là một vấn đề ảnh hưởng rất nhiều tới độ chính xác của model. Với một đứa trẻ, chỉ cần chỉ cho chúng 1 hình ảnh con mèo thì các lần sau...

Deep Learning

203

Viblo AI thg 1 16, 2024 8:00 SA

10 phút đọc

Paper reading | X3D: Expanding Architectures for Efficient Video Recognition

Đóng góp của bài báo

Ý tưởng cơ bản để xây dựng model cho các bài toán liên quan tới video đó là mở rộng kiến trúc mạng cho ảnh từ 2D theo chiều thời gian lên 3D. Bằng cách này, ta sẽ phải mở rộng input, filter, feature,... theo chiều thời gian. Tuy nhiên, điều này sẽ làm cho model trở nên rất lớn và yêu cầu nhiều tài nguyên tính toán.

Bài báo đề xuất một kiến trúc mô hình có tên là X3D (Expa...

Deep Learning

210

Viblo AI thg 1 11, 2024 8:00 SA

8 phút đọc

Paper reading | MaxViT: Multi-Axis Vision Transformer

Đóng góp của bài báo

Các mô hình ViT nếu như không pretrained trước đó sẽ có hiệu suất kém hơn so với các mô hình ConvNets. Lý do là các mô hình Transformer có model capacity cao với inductive bias thấp, điều này dẫn tới tình trạng overfitting. Bài toán đặt ra là làm như thế nào để kết hợp hiệu quả tương tác global và local trong mô hình Transformer với mục tiêu cân bằng model capacity và tính...

Deep Learning

204

Viblo AI thg 1 9, 2024 8:00 SA

16 phút đọc

Paper reading | CoAtNet: Marrying Convolution and Attention for All Data Sizes

Giới thiệu

Kể từ sự ra đời của AlexNet, mạng ConvNets đã trở thành một kiến trúc mô hình quan trọng trong lĩnh vực thị giác máy tính. Bên cạnh đó, với sự thành công của các mô hình self-attention như Transformers trong lĩnh vực xử lý ngôn ngữ tự nhiên, nhiều nghiên cứu trước đó đã có ý tưởng kết hợp sức mạnh của attention vào lĩnh vực thị giác máy tính. Mô hình ViT (Vision Transformer) đã chứn...

Deep Learning

337

Viblo AI thg 1 6, 2024 8:00 SA

8 phút đọc

Paper reading | CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model

Đóng góp của bài báo

Các mô hình pretrained Vision-language (VL) với dữ liệu lớn như CLIP và ALIGN thể hiện sự mạnh mẽ trong đa dạng task về hình ảnh và ngôn ngữ. Trong bài báo, nhóm tác giả chứng minh pretrained VL có thể sử dụng làm backbone cho các mô hình thuộc bài toán Scene Text Recognition.

Trong hình trên, CLIP thể hiện được sức mạnh khi chú ý chính xác vào vùng có văn bản, kể cả văn ...

Deep Learning ocr

180

Viblo AI thg 1 4, 2024 8:00 SA

4 phút đọc

Paper reading | Tóm tắt mô hình ResNeSt: Split-Attention Networks

Đóng góp của bài báo

Bài báo giới thiệu một kiến trúc mô hình đơn giản có tên ResNeSt sử dụng channel-wise attention trên các nhánh của mạng với mục tiêu tận dụng sức mạnh capture thông tin tương tác giữa các đặc trưng (cross-feature interaction) và học đa dạng các biểu diễn. Mô hình ResNeSt vượt qua mô hình EfficientNet trên khía cạnh đánh đổi độ chính xác và độ trễ (accuracy and latency trad...

Deep Learning

631

Viblo AI thg 1 2, 2024 8:00 SA

8 phút đọc

Paper reading | Tìm hiểu mô hình ResNeXt

Đóng góp của bài báo

Bài báo giới thiệu một kiến trúc mô hình mới có tên ResNeXt (Residual Next) là phiên bản nâng cấp từ ResNet. ResNeXt đạt vị trí thứ 2 trong ILSVRC 2016 classification task (xem hình dưới) với top 5 error rate khoảng 3.03%. So sánh với ResNet (vô địch ILSVRC 2015 với top 5 error rate là 3.57%) và PolyNet (đứng thứ 2 với 3.04%), ResNeXt có hiệu suất tốt hơn khoảng 15%, một c...

Deep Learning

340

Viblo AI thg 12 30, 2023 8:00 SA

13 phút đọc

Paper reading | Deep High-Resolution Representation Learning for Visual Recognition

Đóng góp của bài báo

Bài báo đề xuất kiến trúc High-Resolution Net (HRNet) là một kiến trúc mạng nơ-ron sâu được phát triển cho các ứng dụng trong lĩnh vực thị giác máy tính, đặc biệt là trong bài toán object recognition và semantic segmentation. HRNet xuất phát từ việc nhận thấy rằng các mạng nơ-ron sâu truyền thống thường có sự mất mát thông tin không gian và độ phân giải khi tiến hành một ...

Deep Learning

816

Viblo AI thg 12 28, 2023 8:00 SA

14 phút đọc

Paper reading | EfficientNetV2: Smaller Models and Faster Training

Đóng góp của bài báo

Deep Learning

1.1K

Viblo AI thg 12 26, 2023 8:00 SA

6 phút đọc

Paper reading | Xception phiên bản nâng cấp của Inception V3

Đóng góp của bài báo

Bài báo giới thiệu mô hình Xception (Extreme Inception) là một kiến trúc mạng neural được phát triển dựa trên ý tưởng của Inception và sử dụng các convolution depthwise separable để cải thiện hiệu suất và hiệu quả tính toán. Được giới thiệu bởi François Chollet vào năm 2017, Xception đã đạt được thành công đáng kể trong lĩnh vực thị giác máy tính.

Dưới đây là một số điểm ...

Deep Learning image classification

132

Viblo AI thg 12 23, 2023 8:00 SA

13 phút đọc

Paper reading | Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

Đặt vấn đề

Self-supervised learning là một phương pháp học máy mà trong đó mô hình được huấn luyện từ dữ liệu mà không yêu cầu nhãn rõ ràng từ con người. Thay vào đó, các nhãn "giả" được tạo ra từ dữ liệu đầu vào. Trong lĩnh vực computer vision, self-supervised learning đã thu hút sự chú ý lớn vì nó giúp giải quyết vấn đề khan hiếm dữ liệu gán nhãn, mở rộng khả năng ứng dụng của học máy trong ...

Deep Learning Vision Transformer

945

Viblo AI thg 12 21, 2023 8:00 SA

4 phút đọc

Paper reading | Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning

Đóng góp bài báo

Trong bài báo, nhóm tác giả nghiên cứu sự kết hợp của 2 ý tưởng có thể coi là kinh điển trong lịch sử các mô hình CNN nổi tiếng là Residual connection và phiên bản mới nhất của kiến trúc Inception .

Residual connection (xem hình dưới) đóng vai trò quan trọng trong việc training các mạng deep learning sâu.

Inception cũng là một kiểu mạng deep learning "rất là deep" nên l...

Deep Learning Resnet

959

Viblo AI thg 12 19, 2023 8:00 SA

8 phút đọc

Paper reading | GRAPH ATTENTION NETWORKS

Giới thiệu

Các mô hình CNN thể hiện sự mạnh mẽ khi áp dụng vào những bài toán có dữ liệu là hình ảnh ví dụ như image classification, semantic segmentation, object detection,... trong đó dữ liệu hình ảnh có biểu diễn cấu trúc ở dạng lưới. Khi đó, ta có thể sử dụng các filter (bộ lọc) trong mạng CNN trượt qua hình ảnh để trích xuất các đặc trưng. Tuy nhiên, dữ liệu có những biểu diễn phức tạp hơ...

Deep Learning

Viblo AI thg 12 16, 2023 8:00 SA

6 phút đọc

Paper reading | ACTION-Net: Multipath Excitation for Action Recognition

Đóng góp của bài báo

Trong các bài toán liên quan tới video, thông tin cần nắm bắt không chỉ là thông tin về mặt không gian (spatial information) giống như hình ảnh mà còn là thông tin về thời gian (temporal information) và sự phụ thuộc của chúng. Ví dụ, cho 2 video thực hiện hành động như sau, video 1 là video mà một người xoay nắm đấm cửa theo chiều kim đồng hồ, video 2 là video mà một người...

Deep Learning Efficient Video Understanding

200

Viblo AI thg 12 14, 2023 8:00 SA

8 phút đọc

Paper reading | VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking

Đóng góp của bài báo

Việc sử dụng một model pretrained tốt là rất cần thiết để giải quyết những bài toán yêu cầu độ chính xác cao mà không phải train lại từ đầu. Các model pretrained này cần có khả năng tổng quát hóa tốt để có thể áp dụng vào các downstream task khác nhau. Trong xử lý ngôn ngữ tự nhiên, ta đã nghe rất nhiều tới mô hình ngôn ngữ lớn (large language model - LLM), việc mở rộng kí...

Video Understanding

347

Viblo AI thg 11 8, 2023 9:00 SA

9 phút đọc

Paper reading | VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training

Đóng góp của bài báo

Để train hiệu quả các mô hình vision transformer (ViT) cần bộ dữ liệu được gán nhãn lớn. Các model ViT đạt được kết quả SOTA khi được train trên hàng trăm triệu ảnh được gán nhãn. Tuy nhiên, việc sử dụng video transformer còn nhiều hạn chế vể mặt hiệu suất do phụ thuộc vào pretrain của các model ViT trên ảnh. Do đó, bài toán ở đây là làm như nào để có thể train hiệu quả mo...

Video Understanding

Tổng số lượt xem bài viết

30.9K

Reputations

1810

Các thẻ theo dõi

Đang theo dõi các người dùng

Các người dùng đang theo dõi

101

Bài viết

Bookmark

Tổng số câu hỏi

Tổng số câu trả lời

Xem tất cả >