Viblo AI

thg 12 28, 2023 8:00 SA 14 phút đọc

Paper reading | EfficientNetV2: Smaller Models and Faster Training

Đóng góp của bài báo

Kết quả training có độ chính xác cao là rất tốt tuy nhiên việc tối ưu thời gian, tài nguyên training và inference của model cũng quan trọng không kém Được giới thiệu lần đầu vào năm 2020, EfficientNet là một họ các mô hình hiệu suất cao được tối ưu hóa cho việc huấn luyện hiệu quả trên các tác vụ liên quan đến hình ảnh. Với việc kết hợp phương pháp scaling và compound s...

2.0K

Deep Learning Transformer

Paper reading | Video Swin Transformer

636

Deep Learning Machine Learning sharpComputerVision

Paper Reading | DIT: SELF-SUPERVISED PRE-TRAINING FOR DOCUMENT IMAGE TRANSFORMER

347

Machine Learning Transformer

Paper Reading | ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

770

Deep Learning Machine Learning

Paper reading | MOBILEVIT: LIGHT-WEIGHT, GENERAL-PURPOSE, AND MOBILE-FRIENDLY VISION TRANSFORMER

305

Paper Reading | ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders

Mayfest2023 Deep Learning

2.6K

Tất cả bài viết

415

Viblo AI thg 7 23, 2025 9:23 SA

16 phút đọc

LLM 101 - Paper reading | Think-in-Memory: Recalling and Post-thinking Enable LLMs with Long-Term Memory

Giới thiệu

Việc thiết kế Large Language Models (LLMs) có Long-term memory là rất quan trọng và hữu ích trong các đoạn hội thoại dài giữa người và máy. Dựa vào việc nhớ và thực hiện suy luận lặp đi lặp lại từ lịch sử chat, các mô hình này cho ra chất lượng phản hồi tốt hơn so với việc chỉ đơn giản dùng window context có sẵn của LLM.

Tuy nhiên, các bước nhớ và suy luận lặp đi lặp lại này dễ tạo...

940

Viblo AI thg 7 22, 2025 9:22 SA

8 phút đọc

Tất tần tật về Airflow (Phần 2) Giới thiệu về DAG

Giới thiệu

Trong phần 1, ta đã biết được cách cài đặt Airflow sử dụng Docker. Trong bài viết này, ta sẽ cùng nhau tìm hiểu một khái niệm quan trọng trong Airflow là DAG (Directed Acyclic Graph) DAG là một tập hợp các nhiệm vụ (tasks) được sắp xếp theo một thứ tự nhất định, trong đó mỗi task đại diện cho một công việc cụ thể trong quá trình xử lý dữ liệu.

Trong Airflow, DAG được sử dụng để ...

airflow mlops

331

Viblo AI thg 7 20, 2025 9:22 SA

15 phút đọc

LLM 101 | FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness

Đóng góp của bài báo

Nếu quen thuộc với Self-attention thì chúng ta đều biết rằng Self-attention có độ phức tạp bậc 2 với độ dài của chuỗi đầu vào. Điều đó có nghĩa là Transformer sẽ chạy rất chậm và tiêu tốn bộ nhớ với các chuỗi dài. Hạn chế lớn này của Transformer sẽ ảnh hưởng đến rất nhiều tới mô hình ngôn ngữ lớn, khi đầu vào là các context, chuỗi văn bản dài. Câu hỏi quan trọng đặt ra là ...

129

Viblo AI thg 7 19, 2025 9:21 SA

8 phút đọc

Paper reading | VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking

Đóng góp của bài báo

Việc sử dụng một model pretrained tốt là rất cần thiết để giải quyết những bài toán yêu cầu độ chính xác cao mà không phải train lại từ đầu. Các model pretrained này cần có khả năng tổng quát hóa tốt để có thể áp dụng vào các downstream task khác nhau. Trong xử lý ngôn ngữ tự nhiên, ta đã nghe rất nhiều tới mô hình ngôn ngữ lớn (large language model - LLM), việc mở rộng kí...

Video Understanding

251

Viblo AI thg 7 18, 2025 9:21 SA

14 phút đọc

Paper reading | EfficientNetV2: Smaller Models and Faster Training

Đóng góp của bài báo

116

Viblo AI thg 7 17, 2025 9:20 SA

16 phút đọc

Paper reading | CoAtNet: Marrying Convolution and Attention for All Data Sizes

Giới thiệu

Kể từ sự ra đời của AlexNet, mạng ConvNets đã trở thành một kiến trúc mô hình quan trọng trong lĩnh vực thị giác máy tính. Bên cạnh đó, với sự thành công của các mô hình self-attention như Transformers trong lĩnh vực xử lý ngôn ngữ tự nhiên, nhiều nghiên cứu trước đó đã có ý tưởng kết hợp sức mạnh của attention vào lĩnh vực thị giác máy tính. Mô hình ViT (Vision Transformer) đã chứn...

130

Viblo AI thg 7 16, 2025 9:20 SA

8 phút đọc

Paper reading | CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model

Đóng góp của bài báo

Các mô hình pretrained Vision-language (VL) với dữ liệu lớn như CLIP và ALIGN thể hiện sự mạnh mẽ trong đa dạng task về hình ảnh và ngôn ngữ. Trong bài báo, nhóm tác giả chứng minh pretrained VL có thể sử dụng làm backbone cho các mô hình thuộc bài toán Scene Text Recognition.

Trong hình trên, CLIP thể hiện được sức mạnh khi chú ý chính xác vào vùng có văn bản, kể cả văn ...

Deep Learning ocr

120

Viblo AI thg 7 15, 2025 9:19 SA

8 phút đọc

Paper reading | MaxViT: Multi-Axis Vision Transformer

Đóng góp của bài báo

Các mô hình ViT nếu như không pretrained trước đó sẽ có hiệu suất kém hơn so với các mô hình ConvNets. Lý do là các mô hình Transformer có model capacity cao với inductive bias thấp, điều này dẫn tới tình trạng overfitting. Bài toán đặt ra là làm như thế nào để kết hợp hiệu quả tương tác global và local trong mô hình Transformer với mục tiêu cân bằng model capacity và tính...

123

Viblo AI thg 7 14, 2025 9:19 SA

4 phút đọc

Paper reading | Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning

Đóng góp bài báo

Trong bài báo, nhóm tác giả nghiên cứu sự kết hợp của 2 ý tưởng có thể coi là kinh điển trong lịch sử các mô hình CNN nổi tiếng là Residual connection và phiên bản mới nhất của kiến trúc Inception .

Residual connection (xem hình dưới) đóng vai trò quan trọng trong việc training các mạng deep learning sâu.

Inception cũng là một kiểu mạng deep learning "rất là deep" nên l...

Deep Learning Resnet

113

Viblo AI thg 7 13, 2025 9:18 SA

4 phút đọc

Paper reading | Tóm tắt mô hình ResNeSt: Split-Attention Networks

Đóng góp của bài báo

Bài báo giới thiệu một kiến trúc mô hình đơn giản có tên ResNeSt sử dụng channel-wise attention trên các nhánh của mạng với mục tiêu tận dụng sức mạnh capture thông tin tương tác giữa các đặc trưng (cross-feature interaction) và học đa dạng các biểu diễn. Mô hình ResNeSt vượt qua mô hình EfficientNet trên khía cạnh đánh đổi độ chính xác và độ trễ (accuracy and latency trad...

287

Viblo AI thg 7 12, 2025 9:18 SA

11 phút đọc

Paper reading | Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

Giới thiệu

Nếu trong tay có dữ liệu lớn và muốn tăng hiệu suất mô hình, hầu như chúng ta sẽ nghĩ ngay tới việc scale kích thước mô hình lên. Điều này được chứng minh là cải thiện hiệu suất của mô hình và hiệu quả của việc sử dụng mẫu (sample efficiency). Tuy nhiên, nếu chỉ scale model size thì vẫn chưa đủ để giải quyết các task khó liên quan đến suy luận như: Toán học, commonsense reasoning và...

292

Viblo AI thg 7 11, 2025 9:17 SA

7 phút đọc

[LLM 101] Llemma - mô hình LLM giải quyết các vấn đề toán học

Giới thiệu

LLEMMA là một LLM cho một miền cụ thể (domain specific) là toán học. Llemma gồm 2 phiên bản là phiên bản 7 tỷ tham số và phiên bản 34 tỷ tham số. Điểm hay của LLEMMA là có khả năng sử dụng các công cụ tính toán để giải quyết các vấn đề toán học ví dụ như Python interpreter hoặc các định lý, định luật. Llemma cũng đạt hiệu suất SOTA so với các model public trong task về toán học.

Ch...

large language model

280

Viblo AI thg 7 10, 2025 9:17 SA

6 phút đọc

Paper reading | FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization

Đóng góp của bài báo

Bài báo giới thiệu mô hình FastViT có kiến trúc hybrid vision transformer, mô hình đạt kết quả SOTA trong việc cân bằng giữa latency-accuracy. FastViT nhanh hơn gấp 3.5 lần so với mô hình CMT (một mô hình hybrid transformer SOTA gần đây). FastViT cũng nhanh gấp 4.9 lần so với EfficientNet và gấp 1.9 lần so với ConvNeXt trên thiết bị di động với cùng độ chính xác trên tập d...

Deep Learning Efficient Video Understanding

Viblo AI thg 7 9, 2025 9:16 SA

6 phút đọc

Paper reading | ACTION-Net: Multipath Excitation for Action Recognition

Đóng góp của bài báo

Trong các bài toán liên quan tới video, thông tin cần nắm bắt không chỉ là thông tin về mặt không gian (spatial information) giống như hình ảnh mà còn là thông tin về thời gian (temporal information) và sự phụ thuộc của chúng. Ví dụ, cho 2 video thực hiện hành động như sau, video 1 là video mà một người xoay nắm đấm cửa theo chiều kim đồng hồ, video 2 là video mà một người...

103

Viblo AI thg 7 8, 2025 9:15 SA

10 phút đọc

Paper reading | Scene Text Recognition with Permuted Autoregressive Sequence Models

Đóng góp của bài báo

Bài toán Scene Text Recognition (STR) luôn nhận được sự quan tâm nhờ tính ứng dụng thực tiễn cao. Không như nhận diện văn bản trên các trang tài liệu do kí tự thường được theo một font, kích thước đồng bộ, đối với scene text thì phức tạp hơn nhiều do văn bản được thể hiện ở nhiều style, hướng, hình dạng, kích thước,... khác nhau.

Về cơ bản, STR là một bài toán computer vi...

Deep Learning ocr

801

Viblo AI thg 2 17, 2025 9:34 SA

5 phút đọc

Tất tần tật về Object Detection: Từ các thuật toán cơ bản đến deep learning (phần 1)

Nhắc đến Computer vision thì không thể không nhắc đến một bài toán cực kì phổ biến là Object detection. Cho đến hiện tại, vẫn rất nhiều thuật toán, mô hình được đề xuất để cải thiện bài toán này. Trong series này, chúng ta cùng tìm hiểu từ những thuật toán cơ bản nhất đến phức tạp để giải quyết bài toán này.

Image Gradient Vector

Trước hết ta cần phân biệt một số khái niệm được nêu trong b...

Machine Learning

654

Viblo AI thg 2 14, 2025 5:19 SA

18 phút đọc

[LLM 101] Tìm hiểu kĩ thuật prompting Tree of Thoughts

Giới thiệu

Các mô hình ngôn ngữ đã đạt được những tiến bộ đáng kể. Chúng thể hiện hiệu suất xuất sắc trong nhiều loại nhiệm vụ khác nhau. Tuy nhiên, các mô hình này thường hoạt động theo một khuôn mẫu tuần tự, từng bước và một mạch từ đầu tới cuối . Điều này không thực sự lý tưởng với các task cần phải lên kế hoạch trước, xem xét và điều chỉnh lại các bước trước đó, hoặc khi các quyết định b...

263

Viblo AI thg 2 13, 2025 6:00 SA

8 phút đọc

[LLM 101 - Paper reading] RAT: Retrieval Augmented Thoughts Elicit Context-Aware Reasoning in Long-Horizon Generation

Đóng góp của bài báo

Các bạn làm LLM hẳn đều biết đến Retrieval Augmented Generation (RAG). Phương pháp này lấy cảm hứng từ cách con người sử dụng thông tin bên ngoài để hỗ trợ quá trình suy luận.

Trong bài báo, nhóm tác giả thực hiện nghiên cứu cách chúng ta có thể kết hợp RAG với quá trình suy luận (reasoning) dài và phức tạp của LLM. Ý tưởng cơ bản là, ta có thể sử dụng RAG để giảm thiểu s...