Image Cover
Avatar

Viblo AI

@ai

Báo cáo

Bài viết được ghim

Đóng góp của bài báo

Kết quả training có độ chính xác cao là rất tốt tuy nhiên việc tối ưu thời gian, tài nguyên training và inference của model cũng quan trọng không kém 😄 Được giới thiệu lần đầu vào năm 2020, EfficientNet là một họ các mô hình hiệu suất cao được tối ưu hóa cho việc huấn luyện hiệu quả trên các tác vụ liên quan đến hình ảnh. Với việc kết hợp phương pháp scaling và compound s...

549
2
0 0

Tất cả bài viết

Thumbnail Image
942
3
1 0
Avatar Viblo AI thg 7 19, 9:00 SA
10 phút đọc

Tất tần tật về Airflow (Phần 1)

Giới thiệu chung

Airflow là gì?

Airflow là một hệ thống mã nguồn mở phát triển bởi Airbnb và sau đó được chuyển giao cho cộng đồng Apache. Được giới thiệu lần đầu vào năm 2014, Airflow trở thành một trong những công cụ quản lý công việc lập lịch và quản lý quy trình hàng đầu trong cộng đồng phân tích dữ liệu và khoa học dữ liệu.

Airflow cho phép người dùng định nghĩa (define), lập lịch (sche...

Thumbnail Image
56
2
1 0
Avatar Viblo AI thg 7 5, 8:03 SA
9 phút đọc

[LLM - Paper reading] Self-Rewarding Language Models - Tìm hiểu cách LLM tự nâng cấp chính nó

Giới thiệu

Các bạn tìm hiểu về LLM chắc không còn lạ gì với RLHF (Reinforcement learning with Human Feedback). Đây là kĩ thuật giúp bạn căn chỉnh (align) LLM sử dụng human preference data, giúp tăng chất lượng của pretrained model. Cách tiếp cận của RLHF khá cơ bản như sau:

  • Train 1 reward model từ human preference. Human preference ở đây các bạn có thể hiểu là nhãn feedback của con người. Ví...
Thumbnail Image
223
2
2 0
Avatar Viblo AI thg 7 5, 7:44 SA
14 phút đọc

[LLM 101 - Paper reading] MemGPT: Towards LLMs as Operating Systems

Đóng góp của bài báo

Hãy tưởng tượng bạn đang cố gắng đọc một cuốn sách rất dài mà chỉ có thể nhớ được một số trang gần nhất bạn vừa đọc. Điều này giống như vấn đề của các mô hình ngôn ngữ lớn (LLM), các mô hình này khó có thể "nhớ" hoặc xử lý thông tin từ những cuộc trò chuyện hoặc tài liệu dài vì chúng chỉ có khả năng xem xét một lượng thông tin giới hạn tại một thời điểm. Đây chính là vấn đ...

Thumbnail Image
375
3
1 2
Avatar Viblo AI thg 7 4, 9:00 SA
10 phút đọc

Tìm hiểu DVC (phần 1): Làm quen với một số concept cơ bản của DVC

Giới thiệu DVC (Data Version Control) là một công cụ quản lý phiên bản cho dữ liệu (Data Version Control) được sử dụng để quản lý các phiên bản của dữ liệu và các tập tin liên quan đến dữ liệu trong các dự án Machine Learning.

Giống như Git, DVC cũng sử dụng hệ thống quản lý phiên bản (version control) để lưu trữ và quản lý các phiên bản của dữ liệu và các tập tin liên quan đến dữ liệu. DVC ch...

Thumbnail Image
302
2
0 0
Avatar Viblo AI thg 6 20, 9:50 SA
6 phút đọc

Paper reading | Fastformer: Additive Attention Can Be All You Need

1. Động lực

Transformer là model nổi tiếng với khả năng xử lý trên dữ liệu dạng văn bản một cách mạnh mẽ. Tuy nhiên, điểm trừ lớn của Transformer là độ phức tạp bậc hai với độ dài của chuỗi đầu vào. Trong bài báo, nhóm tác giả đề xuất model Fastformer với mục tiêu tăng độ hiệu quả của model Transformer dựa trên cơ chế additive attention.

2. Đóng góp

Trong Fastformer thay vì modeling tương ...

Thumbnail Image
205
2
0 0
Avatar Viblo AI thg 6 7, 10:00 SA
13 phút đọc

[Paper reading] Towards Multi-Lingual Visual Question Answering

Giới thiệu chung

Visual Question Answering (VQA) là một bài toán thú vị mô phỏng gần nhất khả năng của con người. Nói một cách ngắn gọn, ta cần huấn luyện máy để có thể thực hiện tương tác hỏi đáp giữa người và máy về một hình ảnh trực quan. Hiện tại, bái toán này chủ yếu thực hiện trên tiếng Anh vì có sẵn các VQA benchmark.

Trong bài báo, nhóm tác giả có 3 đóng góp chính như sau:

  1. Nhóm tác...
Thumbnail Image
107
2
0 0
Avatar Viblo AI thg 5 24, 1:56 CH
11 phút đọc

[Paper reading] PaLI: A Jointly-Scaled Multilingual Language-Image Model

Giới thiệu chung Việc tăng dung lượng mạng neural đã đạt những thành tựu nhất định với các tác vụ liên quan đến NLP và Computer Vision. Ý tưởng cơ bản là ta "nhồi" thêm dữ liệu và tăng độ phức tạp mô hình để thu về một model khủng có độ chính xác cao. 😄 Trong các bài toán NLP, các mô hình như T5, GPT-3, Megatron-Turing, GLAM, Chinchilla, và PaLM đã cho thấy những lợi thế đáng kể từ việc traini...

Thumbnail Image
75
3
1 0
Avatar Viblo AI thg 5 12, 8:00 SA
10 phút đọc

Paper reading | EASY – Ensemble Augmented-Shot Y-shaped Learning: State-Of-The-Art Few-Shot Classification with Simple Ingredients

Tóm tắt Mục tiêu của Few-shot learning là tận dụng tri thức học được từ 1 hoặc nhiều model deep learning để đạt hiệu suất tốt trên một bài toán mới. Bài toán này có đặc điểm là chỉ có một vài mẫu được gán nhãn trong mỗi class. Vấn đề đặt ra là việc sử dụng model trích xuất tri thức chưa thật sự tối ưu, điều này dẫn đến một câu hỏi là cách tiếp cận mới có thật sự mang lại độ chính xác cao hơn so...

Thumbnail Image
158
4
5 0
Avatar Viblo AI thg 5 11, 8:00 SA
15 phút đọc

Tìm hiểu Few-Shot Learning trong các bài toán Computer Vision

Giới thiệu chung

Một vấn đề khi sử dụng các model Deep Learning là không phải lúc nào ta cũng có đủ lượng dữ liệu để train. Khi làm việc với các tác vụ Computer Vision, bạn thỉnh thoảng (hoặc thường xuyên 😄) gặp vấn đề đó là chỉ có 1-2 mẫu trên một class. Đây là một vấn đề ảnh hưởng rất nhiều tới độ chính xác của model. Với một đứa trẻ, chỉ cần chỉ cho chúng 1 hình ảnh con mèo thì các lần sau...

Thumbnail Image
450
5
1 0
Avatar Viblo AI thg 5 10, 9:00 SA
8 phút đọc

Làm như nào để giải thích một mô hình học máy? (phần 1)

Giới thiệu

Các mô hình học máy đã bắt đầu thâm nhập vào các lĩnh vực quan trọng, yêu cầu về tính bảo mật và độ chính xác cao như y tế, hệ thống tư pháp và ngành tài chính. Do đó, việc giải thích tại sao mô hình lại đưa ra dự đoán như vậy là một điều cần thiết, nó giúp ta đảm bảo sự tin tưởng khi áp dụng mô hình vào thực tế. 😃

Trong khi đó, sự tăng trưởng nhanh chóng của các mô hình học sâu l...

Thumbnail Image
319
3
3 0
Avatar Viblo AI thg 5 3, 12:00 CH
9 phút đọc

Boruta - Một thuật toán mạnh mẽ cho lựa chọn đặc trưng

Feature selection là một bước cơ bản trong các Machine learning pipeline. Ta có trong tay một đống "thập cẩm" các feature, công việc bây giờ là chọn những feature quan trọng và bỏ những feature không cần thiết đi. Mục tiêu là đơn giản hóa vấn đề bằng cách xóa đi các feature có thể dẫn đến nhiễu không cần thiết.

Boruta là một thuật toán hiệu quả được thiết kế để tự động thực hiện feature select...

Thumbnail Image
1.0K
3
2 2
Avatar Viblo AI thg 4 17, 9:00 SA
8 phút đọc

Tìm hiểu về Swin Transformers

Giới thiệu chung

Ngoài các model CNN thì các model họ Transformer cũng đạt những kết quả ấn tượng khi sử dụng trong các task về Computer Vision như object detection, image classification, semantic segmentation,... Mô hình Transformer đầu tiên được sử dụng trong Computer Vision là ViT (Vision Transformer) đã cho những kết quả SOTA tại thời điểm ra mắt. Các mô hình Transformer cải tiến khác cho ...

Thumbnail Image
606
6
2 1
Avatar Viblo AI thg 3 21, 8:00 SA
10 phút đọc

Lựa chọn Feature sao cho đúng?

Đa phần trong chúng ta khi thực hiện feature-selection đều sử dụng "SelectFromModel" (một module của Scikit-learn). Thường thì công việc ta sẽ làm như sau:

  1. Bạn chọn một mô hình dự đoán (ta sẽ gọi nó là WhatevBoost)
  2. Thực hiện fit WhatevBoost với tất cả feature
  3. Trích xuất những feature quan trọng từ WhatevBoost
  4. Loại bỏ tất cả những feature có threshold thấp hơn mong muốn và giữ lại nh...
Thumbnail Image
945
7
6 0
Avatar Viblo AI thg 3 8, 8:00 SA
15 phút đọc

Model của bạn thật sự tốt hay chỉ là một sự may mắn?

Nếu từng tham gia các cuộc thi trên Kaggle, bạn sẽ thấy rằng, chỉ cần chênh lệch 0.01% kết quả cũng sẽ làm bạn thằng $100.000 hoặc không có gì trong tay 😄 Lấy ví dụ về cuộc thi Data Science Bowl 2017 Giải thưởng $500.000 cho đội được giải nhất, 200.000 cho đội đứng thứ hai và 100.000 cho đội đứng thứ ba. Metric dùng để đánh giá là log-loss. Dưới đây là bảng xếp hạng của cuộc thi

Nhìn thử vào...

Thumbnail Image
1.2K
1
2 0
Avatar Viblo AI thg 2 22, 8:00 SA
15 phút đọc

Few-Shot Learning cho phân loại hình ảnh

Giới thiệu chung

Một vấn đề khi sử dụng các model Deep Learning là không phải lúc nào ta cũng có đủ lượng dữ liệu để train. Khi làm việc với các tác vụ Computer Vision, bạn thỉnh thoảng (hoặc thường xuyên 😄) gặp vấn đề đó là chỉ có 1-2 mẫu trên một class. Đây là một vấn đề ảnh hưởng rất nhiều tới độ chính xác của model. Với một đứa trẻ, chỉ cần chỉ cho chúng 1 hình ảnh con mèo thì các lần sau...

Thumbnail Image
170
2
0 0
Avatar Viblo AI thg 1 16, 8:00 SA
10 phút đọc

Paper reading | X3D: Expanding Architectures for Efficient Video Recognition

Đóng góp của bài báo

Ý tưởng cơ bản để xây dựng model cho các bài toán liên quan tới video đó là mở rộng kiến trúc mạng cho ảnh từ 2D theo chiều thời gian lên 3D. Bằng cách này, ta sẽ phải mở rộng input, filter, feature,... theo chiều thời gian. Tuy nhiên, điều này sẽ làm cho model trở nên rất lớn và yêu cầu nhiều tài nguyên tính toán.

Bài báo đề xuất một kiến trúc mô hình có tên là X3D (Expa...

Thumbnail Image
177
4
2 0
Avatar Viblo AI thg 1 11, 8:00 SA
8 phút đọc

Paper reading | MaxViT: Multi-Axis Vision Transformer

Đóng góp của bài báo

Các mô hình ViT nếu như không pretrained trước đó sẽ có hiệu suất kém hơn so với các mô hình ConvNets. Lý do là các mô hình Transformer có model capacity cao với inductive bias thấp, điều này dẫn tới tình trạng overfitting. Bài toán đặt ra là làm như thế nào để kết hợp hiệu quả tương tác global và local trong mô hình Transformer với mục tiêu cân bằng model capacity và tính...

Thumbnail Image
169
4
0 0
Avatar Viblo AI thg 1 9, 8:00 SA
16 phút đọc

Paper reading | CoAtNet: Marrying Convolution and Attention for All Data Sizes

Giới thiệu

Kể từ sự ra đời của AlexNet, mạng ConvNets đã trở thành một kiến trúc mô hình quan trọng trong lĩnh vực thị giác máy tính. Bên cạnh đó, với sự thành công của các mô hình self-attention như Transformers trong lĩnh vực xử lý ngôn ngữ tự nhiên, nhiều nghiên cứu trước đó đã có ý tưởng kết hợp sức mạnh của attention vào lĩnh vực thị giác máy tính. Mô hình ViT (Vision Transformer) đã chứn...

Thumbnail Image
254
2
2 0
Avatar Viblo AI thg 1 6, 8:00 SA
8 phút đọc

Paper reading | CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model

Đóng góp của bài báo

Các mô hình pretrained Vision-language (VL) với dữ liệu lớn như CLIP và ALIGN thể hiện sự mạnh mẽ trong đa dạng task về hình ảnh và ngôn ngữ. Trong bài báo, nhóm tác giả chứng minh pretrained VL có thể sử dụng làm backbone cho các mô hình thuộc bài toán Scene Text Recognition.

Trong hình trên, CLIP thể hiện được sức mạnh khi chú ý chính xác vào vùng có văn bản, kể cả văn ...

Thumbnail Image
143
2
0 0
Avatar Viblo AI thg 1 4, 8:00 SA
4 phút đọc

Paper reading | Tóm tắt mô hình ResNeSt: Split-Attention Networks

Đóng góp của bài báo

Bài báo giới thiệu một kiến trúc mô hình đơn giản có tên ResNeSt sử dụng channel-wise attention trên các nhánh của mạng với mục tiêu tận dụng sức mạnh capture thông tin tương tác giữa các đặc trưng (cross-feature interaction) và học đa dạng các biểu diễn. Mô hình ResNeSt vượt qua mô hình EfficientNet trên khía cạnh đánh đổi độ chính xác và độ trễ (accuracy and latency trad...

Viblo
Hãy đăng ký một tài khoản Viblo để nhận được nhiều bài viết thú vị hơn.
Đăng kí