Image Cover
Avatar

Viblo AI

@ai

Report

Pinned Posts

Đóng góp của bài báo

Kết quả training có độ chính xác cao là rất tốt tuy nhiên việc tối ưu thời gian, tài nguyên training và inference của model cũng quan trọng không kém 😄 Được giới thiệu lần đầu vào năm 2020, EfficientNet là một họ các mô hình hiệu suất cao được tối ưu hóa cho việc huấn luyện hiệu quả trên các tác vụ liên quan đến hình ảnh. Với việc kết hợp phương pháp scaling và compound s...

1.0K
2
0 0

All posts

Thumbnail Image
15
0
0 0
Avatar Viblo AI about 21 hours ago
4 min read

Paper reading | Tóm tắt mô hình ResNeSt: Split-Attention Networks

Đóng góp của bài báo

Bài báo giới thiệu một kiến trúc mô hình đơn giản có tên ResNeSt sử dụng channel-wise attention trên các nhánh của mạng với mục tiêu tận dụng sức mạnh capture thông tin tương tác giữa các đặc trưng (cross-feature interaction) và học đa dạng các biểu diễn. Mô hình ResNeSt vượt qua mô hình EfficientNet trên khía cạnh đánh đổi độ chính xác và độ trễ (accuracy and latency trad...

Thumbnail Image
23
0
0 0
Avatar Viblo AI Saturday, 9:18 a.m.
11 min read

Paper reading | Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

Giới thiệu

Nếu trong tay có dữ liệu lớn và muốn tăng hiệu suất mô hình, hầu như chúng ta sẽ nghĩ ngay tới việc scale kích thước mô hình lên. Điều này được chứng minh là cải thiện hiệu suất của mô hình và hiệu quả của việc sử dụng mẫu (sample efficiency). Tuy nhiên, nếu chỉ scale model size thì vẫn chưa đủ để giải quyết các task khó liên quan đến suy luận như: Toán học, commonsense reasoning và...

Thumbnail Image
43
0
0 0
Avatar Viblo AI Friday, 9:17 a.m.
7 min read

[LLM 101] Llemma - mô hình LLM giải quyết các vấn đề toán học

Giới thiệu

LLEMMA là một LLM cho một miền cụ thể (domain specific) là toán học. Llemma gồm 2 phiên bản là phiên bản 7 tỷ tham số và phiên bản 34 tỷ tham số. Điểm hay của LLEMMA là có khả năng sử dụng các công cụ tính toán để giải quyết các vấn đề toán học ví dụ như Python interpreter hoặc các định lý, định luật. Llemma cũng đạt hiệu suất SOTA so với các model public trong task về toán học.

Ch...

Thumbnail Image
32
0
0 0
Avatar Viblo AI Thursday, 9:17 a.m.
6 min read

Paper reading | FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization

Đóng góp của bài báo

Bài báo giới thiệu mô hình FastViT có kiến trúc hybrid vision transformer, mô hình đạt kết quả SOTA trong việc cân bằng giữa latency-accuracy. FastViT nhanh hơn gấp 3.5 lần so với mô hình CMT (một mô hình hybrid transformer SOTA gần đây). FastViT cũng nhanh gấp 4.9 lần so với EfficientNet và gấp 1.9 lần so với ConvNeXt trên thiết bị di động với cùng độ chính xác trên tập d...

Thumbnail Image
25
0
0 0
Avatar Viblo AI Wednesday, 9:16 a.m.
6 min read

Paper reading | ACTION-Net: Multipath Excitation for Action Recognition

Đóng góp của bài báo

Trong các bài toán liên quan tới video, thông tin cần nắm bắt không chỉ là thông tin về mặt không gian (spatial information) giống như hình ảnh mà còn là thông tin về thời gian (temporal information) và sự phụ thuộc của chúng. Ví dụ, cho 2 video thực hiện hành động như sau, video 1 là video mà một người xoay nắm đấm cửa theo chiều kim đồng hồ, video 2 là video mà một người...

Thumbnail Image
25
0
0 0
Avatar Viblo AI Tuesday, 9:15 a.m.
10 min read

Paper reading | Scene Text Recognition with Permuted Autoregressive Sequence Models

Đóng góp của bài báo

Bài toán Scene Text Recognition (STR) luôn nhận được sự quan tâm nhờ tính ứng dụng thực tiễn cao. Không như nhận diện văn bản trên các trang tài liệu do kí tự thường được theo một font, kích thước đồng bộ, đối với scene text thì phức tạp hơn nhiều do văn bản được thể hiện ở nhiều style, hướng, hình dạng, kích thước,... khác nhau.

Về cơ bản, STR là một bài toán computer vi...

Thumbnail Image
280
1
0 0
Avatar Viblo AI Feb 17th, 9:34 a.m.
5 min read

Tất tần tật về Object Detection: Từ các thuật toán cơ bản đến deep learning (phần 1)

Nhắc đến Computer vision thì không thể không nhắc đến một bài toán cực kì phổ biến là Object detection. Cho đến hiện tại, vẫn rất nhiều thuật toán, mô hình được đề xuất để cải thiện bài toán này. Trong series này, chúng ta cùng tìm hiểu từ những thuật toán cơ bản nhất đến phức tạp để giải quyết bài toán này. 😄

Image Gradient Vector

Trước hết ta cần phân biệt một số khái niệm được nêu trong b...

Thumbnail Image
284
1
0 1
Avatar Viblo AI Feb 14th, 5:19 a.m.
18 min read

[LLM 101] Tìm hiểu kĩ thuật prompting Tree of Thoughts

Giới thiệu

Các mô hình ngôn ngữ đã đạt được những tiến bộ đáng kể. Chúng thể hiện hiệu suất xuất sắc trong nhiều loại nhiệm vụ khác nhau. Tuy nhiên, các mô hình này thường hoạt động theo một khuôn mẫu tuần tự, từng bước và một mạch từ đầu tới cuối 😄. Điều này không thực sự lý tưởng với các task cần phải lên kế hoạch trước, xem xét và điều chỉnh lại các bước trước đó, hoặc khi các quyết định b...

Thumbnail Image
174
0
1 0
Avatar Viblo AI Feb 13th, 6:00 a.m.
8 min read

[LLM 101 - Paper reading] RAT: Retrieval Augmented Thoughts Elicit Context-Aware Reasoning in Long-Horizon Generation

Đóng góp của bài báo

Các bạn làm LLM hẳn đều biết đến Retrieval Augmented Generation (RAG). Phương pháp này lấy cảm hứng từ cách con người sử dụng thông tin bên ngoài để hỗ trợ quá trình suy luận.

Trong bài báo, nhóm tác giả thực hiện nghiên cứu cách chúng ta có thể kết hợp RAG với quá trình suy luận (reasoning) dài và phức tạp của LLM. Ý tưởng cơ bản là, ta có thể sử dụng RAG để giảm thiểu s...

Thumbnail Image
279
0
0 0
Avatar Viblo AI Feb 12th, 4:30 a.m.
21 min read

ASR | Paper reading | Tìm hiểu cách sử dụng model Whisper Speech-to-text cho các đoạn audio dài

Giới thiệu

Với sự xuất hiện của các bộ dữ liệu web có size lớn, các phương pháp huấn luyện weakly-supervised và unsupervised đã chứng minh hiệu suất ấn tượng trên nhiều tác vụ xử lý giọng nói, bao gồm speech recognition, speaker recognition, speech separation, và keyword spotting 😄

Whisper có cách tận dụng nguồn dữ liệu phong phú này theo 1 cách khá thông minh. Bằng cách khai thác 680,000 gi...

Thumbnail Image
404
1
1 0
Avatar Viblo AI Dec 6th, 2024 9:00 a.m.
8 min read

[LLM - Paper reading] Tóm tắt về phương pháp Direct Preference Optimization sử dụng trong RLHF

Giới thiệu

Trong bài viết này mình sẽ tóm tắt các ý tưởng chính của phương pháp DPO trong bài báo DPO Paper. Về cơ bản, đây là kỹ thuật để align hiệu quả các model LLM. Một số model 7B sử dụng phương pháp này có thể đạt performance tương đương với các model 70B, thậm chí là hơn 😄. Ví dụ như Mixtral 8x7B sử dụng DPO đạt đến performance của LLaMa 70B. Okay! Vậy thì đi thử sâu hơn vào phương phá...

Thumbnail Image
330
1
2 0
Avatar Viblo AI Dec 4th, 2024 9:01 a.m.
12 min read

[LLM 101] Tìm hiểu RLHF trong InstructGPT và Llama 2

Giới thiệu

Nếu từng làm về LLM thì hẳn bạn sẽ không còn thấy xa lạ gì với RLHF (Reinforcement Learning with Human Feedback). RLHF đóng một vai trò quan trọng trong quá trình training và finetuning 1 mô hình LLM, giúp tăng chất lượng các câu trả lời của mô hình dựa vào feedback từ con người.

Trong bài viết này, chúng ta sẽ cùng nhau tìm hiểu cơ chế hoạt động của RLHF và các phiên bản thay thế ...

Thumbnail Image
926
2
1 0
Avatar Viblo AI Dec 2nd, 2024 9:00 a.m.
16 min read

NLP | Beam Search là gì? Tại sao thuật toán này được sử dụng nhiều trong NLP?

Giới thiệu

Nhiều ứng dụng trong xử lý ngôn ngữ tự nhiên (NLP) như dịch máy, chatbot,... đều có output dưới dạng văn bản. Ngoài ra, các ứng dụng như mô tả hình ảnh (image captioning) hoặc nhận dạng giọng nói tự động (Speech-to-Text) cũng tạo ra văn bản, mặc dù chúng không hoàn toàn thuộc lĩnh vực NLP. Để tạo ra kết quả, các ứng dụng này thường sử dụng một số thuật toán phổ biến trong bước cuối ...

Thumbnail Image
105
2
1 0
Avatar Viblo AI Dec 1st, 2024 9:00 a.m.
12 min read

[LLM 101 - Paper reading] Tìm hiểu khả năng suy luận "K-level" trong mô hình ngôn ngữ lớn

Giới thiệu

Các Mô hình Ngôn ngữ Lớn (LLMs) đã mở ra một kỷ nguyên mới trong trí tuệ nhân tạo, giúp cải thiện cách chúng ta giải quyết các vấn đề phức tạp, từ toán học đến những câu hỏi thực tế hàng ngày. Tuy nhiên, việc nghiên cứu về cách LLMs suy nghĩ và đưa ra quyết định một cách linh hoạt trong các tình huống thay đổi liên tục vẫn còn hạn chế.

Hãy thử tưởng tượng một ví dụ khi bạn cần di c...

Thumbnail Image
331
2
1 0
Avatar Viblo AI Nov 22nd, 2024 8:00 a.m.
14 min read

[LLM - Paper reading] RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

Giới thiệu

Các bạn đều biết rằng Reinforcement Learning from Human Feedback (RLHF) là một phương pháp hiệu quả để align các mô hình ngôn ngữ lớn (LLMs) theo preference của con người, đóng vai trò quan trọng trong sự phát triển của các mô hình hội thoại hiện đại như ChatGPT và Bard 😄 Tuy nhiên, RLHF yêu cầu rất nhiều thời gian và chi phí do cần nhãn chất lượng cao được gán bởi con người.

Phươ...

Thumbnail Image
502
2
1 0
Avatar Viblo AI Nov 20th, 2024 8:00 a.m.
15 min read

Một số khái niệm cơ bản trong bài toán xử lý âm thanh sử dụng Deep learning (Phần 1)

Âm thanh là gì?

Nếu học các kiến thức môn Vật lý cấp 2, cấp 3 hẳn các bạn đều biết rõ bản chất âm thanh là gì 😄 Âm thanh là tín hiệu được tạo ra bởi sự biến đổi của áp suất không khí. Những biến đổi này có thể được đo lường và biểu đồ hóa theo thời gian. Khi chúng ta đo cường độ của các biến đổi áp suất và vẽ các số đo này theo thời gian, chúng ta có thể thấy các tín hiệu âm thanh.

Âm thanh ...

Thumbnail Image
515
2
2 0
Avatar Viblo AI Nov 18th, 2024 8:00 a.m.
6 min read

[LLM 101] Thử chạy Llama 3 trên Laptop cá nhân

Giới thiệu

LLama 3 là một mô hình mới được release gần đây bởi Meta gây xôn xao cho cộng đồng làm AI. Trong bài viết này, mình sẽ trình bày cách bạn có thể chạy một mô hình Llama 3 trên ngay chính laptop của mình. Không cần dài dòng nữa, chúng ta bắt đầu thôi 😄

Cài đặt

Chúng ta sẽ cần 2 thư viện sau:

Với CPU: Tạo một thư mục mới tên là TestLlama3 và vào terminal chạy đoạn script sau:

Bây ...

Thumbnail Image
873
3
0 0
Avatar Viblo AI Nov 17th, 2024 10:00 a.m.
8 min read

[LLM 101] Cài đặt kĩ thuật RAG sử dụng Hybrid Search, Embed Caching và Mistral-AI

RAG là gì?

RAG, hay Retrieval Augmented Generation, là một phương pháp kết hợp các yếu tố của truy xuất thông tin và tạo ra ngôn ngữ tự nhiên nhằm cải thiện chất lượng của văn bản được tạo ra, đặc biệt là trong bối cảnh các nhiệm vụ ngôn ngữ phức tạp như trả lời câu hỏi, tóm tắt và hoàn thành văn bản.

Mục tiêu chính của RAG là tăng độ chính xác của quá trình generate bằng cách truy xuất thông...

Thumbnail Image
252
3
1 0
Avatar Viblo AI Nov 16th, 2024 10:00 a.m.
4 min read

[LLM 101] Thử tạo bộ nhớ ngắn hạn cho LLM Agent sử dụng LangChain

Giới thiệu

Trong chatbot, bộ nhớ đóng vai trò không thể phủ nhận trong việc tạo ra các cuộc hội thoại trôi chảy và gần gũi như con người. Nếu như một chatbot mà quên tên của bạn hoặc không nhớ đến các chủ đề đã thảo luận trước đó thì điều này làm mất đi bản chất của một cuộc trò chuyện với một thực thể thông minh 😄

Bộ nhớ đóng một vai trò then chốt trong quá trình phát triển của các hệ thống...

Thumbnail Image
1.0K
2
1 0
Avatar Viblo AI Nov 15th, 2024 9:46 a.m.
13 min read

[LLM] Sử dụng RAGAs và LlamaIndex để đánh giá chất lượng RAG

Giới thiệu

Nếu bạn đã phát triển một ứng dụng Retrieval Augmented Generation (RAG) cho hệ thống kinh doanh thực tế, bạn có thể quan tâm đến hiệu quả của nó. Nói cách khác, bạn muốn đánh giá xem RAG hoạt động tốt như thế nào.

Hơn nữa, nếu bạn nhận thấy rằng RAG hiện tại của mình chưa đủ hiệu quả, bạn có thể cần kiểm tra tính hiệu quả của các phương pháp cải tiến RAG mới. Điều này đồng nghĩa vớ...

Viblo
Let's register a Viblo Account to get more interesting posts.