Pinned Posts
Đóng góp của bài báo
Kết quả training có độ chính xác cao là rất tốt tuy nhiên việc tối ưu thời gian, tài nguyên training và inference của model cũng quan trọng không kém Được giới thiệu lần đầu vào năm 2020, EfficientNet là một họ các mô hình hiệu suất cao được tối ưu hóa cho việc huấn luyện hiệu quả trên các tác vụ liên quan đến hình ảnh. Với việc kết hợp phương pháp scaling và compound s...
All posts
Đóng góp của bài báo
Bài báo giới thiệu một kiến trúc mô hình đơn giản có tên ResNeSt sử dụng channel-wise attention trên các nhánh của mạng với mục tiêu tận dụng sức mạnh capture thông tin tương tác giữa các đặc trưng (cross-feature interaction) và học đa dạng các biểu diễn. Mô hình ResNeSt vượt qua mô hình EfficientNet trên khía cạnh đánh đổi độ chính xác và độ trễ (accuracy and latency trad...
Giới thiệu
Nếu trong tay có dữ liệu lớn và muốn tăng hiệu suất mô hình, hầu như chúng ta sẽ nghĩ ngay tới việc scale kích thước mô hình lên. Điều này được chứng minh là cải thiện hiệu suất của mô hình và hiệu quả của việc sử dụng mẫu (sample efficiency). Tuy nhiên, nếu chỉ scale model size thì vẫn chưa đủ để giải quyết các task khó liên quan đến suy luận như: Toán học, commonsense reasoning và...
Giới thiệu
LLEMMA là một LLM cho một miền cụ thể (domain specific) là toán học. Llemma gồm 2 phiên bản là phiên bản 7 tỷ tham số và phiên bản 34 tỷ tham số. Điểm hay của LLEMMA là có khả năng sử dụng các công cụ tính toán để giải quyết các vấn đề toán học ví dụ như Python interpreter hoặc các định lý, định luật. Llemma cũng đạt hiệu suất SOTA so với các model public trong task về toán học.
Ch...
Đóng góp của bài báo
Bài báo giới thiệu mô hình FastViT có kiến trúc hybrid vision transformer, mô hình đạt kết quả SOTA trong việc cân bằng giữa latency-accuracy. FastViT nhanh hơn gấp 3.5 lần so với mô hình CMT (một mô hình hybrid transformer SOTA gần đây). FastViT cũng nhanh gấp 4.9 lần so với EfficientNet và gấp 1.9 lần so với ConvNeXt trên thiết bị di động với cùng độ chính xác trên tập d...
Đóng góp của bài báo
Trong các bài toán liên quan tới video, thông tin cần nắm bắt không chỉ là thông tin về mặt không gian (spatial information) giống như hình ảnh mà còn là thông tin về thời gian (temporal information) và sự phụ thuộc của chúng. Ví dụ, cho 2 video thực hiện hành động như sau, video 1 là video mà một người xoay nắm đấm cửa theo chiều kim đồng hồ, video 2 là video mà một người...
Đóng góp của bài báo
Bài toán Scene Text Recognition (STR) luôn nhận được sự quan tâm nhờ tính ứng dụng thực tiễn cao. Không như nhận diện văn bản trên các trang tài liệu do kí tự thường được theo một font, kích thước đồng bộ, đối với scene text thì phức tạp hơn nhiều do văn bản được thể hiện ở nhiều style, hướng, hình dạng, kích thước,... khác nhau.
Về cơ bản, STR là một bài toán computer vi...
Nhắc đến Computer vision thì không thể không nhắc đến một bài toán cực kì phổ biến là Object detection. Cho đến hiện tại, vẫn rất nhiều thuật toán, mô hình được đề xuất để cải thiện bài toán này. Trong series này, chúng ta cùng tìm hiểu từ những thuật toán cơ bản nhất đến phức tạp để giải quyết bài toán này.
Image Gradient Vector
Trước hết ta cần phân biệt một số khái niệm được nêu trong b...
Giới thiệu
Các mô hình ngôn ngữ đã đạt được những tiến bộ đáng kể. Chúng thể hiện hiệu suất xuất sắc trong nhiều loại nhiệm vụ khác nhau. Tuy nhiên, các mô hình này thường hoạt động theo một khuôn mẫu tuần tự, từng bước và một mạch từ đầu tới cuối . Điều này không thực sự lý tưởng với các task cần phải lên kế hoạch trước, xem xét và điều chỉnh lại các bước trước đó, hoặc khi các quyết định b...
Đóng góp của bài báo
Các bạn làm LLM hẳn đều biết đến Retrieval Augmented Generation (RAG). Phương pháp này lấy cảm hứng từ cách con người sử dụng thông tin bên ngoài để hỗ trợ quá trình suy luận.
Trong bài báo, nhóm tác giả thực hiện nghiên cứu cách chúng ta có thể kết hợp RAG với quá trình suy luận (reasoning) dài và phức tạp của LLM. Ý tưởng cơ bản là, ta có thể sử dụng RAG để giảm thiểu s...
Giới thiệu
Với sự xuất hiện của các bộ dữ liệu web có size lớn, các phương pháp huấn luyện weakly-supervised và unsupervised đã chứng minh hiệu suất ấn tượng trên nhiều tác vụ xử lý giọng nói, bao gồm speech recognition, speaker recognition, speech separation, và keyword spotting
Whisper có cách tận dụng nguồn dữ liệu phong phú này theo 1 cách khá thông minh. Bằng cách khai thác 680,000 gi...
Giới thiệu
Trong bài viết này mình sẽ tóm tắt các ý tưởng chính của phương pháp DPO trong bài báo DPO Paper. Về cơ bản, đây là kỹ thuật để align hiệu quả các model LLM. Một số model 7B sử dụng phương pháp này có thể đạt performance tương đương với các model 70B, thậm chí là hơn . Ví dụ như Mixtral 8x7B sử dụng DPO đạt đến performance của LLaMa 70B. Okay! Vậy thì đi thử sâu hơn vào phương phá...
Giới thiệu
Nếu từng làm về LLM thì hẳn bạn sẽ không còn thấy xa lạ gì với RLHF (Reinforcement Learning with Human Feedback). RLHF đóng một vai trò quan trọng trong quá trình training và finetuning 1 mô hình LLM, giúp tăng chất lượng các câu trả lời của mô hình dựa vào feedback từ con người.
Trong bài viết này, chúng ta sẽ cùng nhau tìm hiểu cơ chế hoạt động của RLHF và các phiên bản thay thế ...
Giới thiệu
Nhiều ứng dụng trong xử lý ngôn ngữ tự nhiên (NLP) như dịch máy, chatbot,... đều có output dưới dạng văn bản. Ngoài ra, các ứng dụng như mô tả hình ảnh (image captioning) hoặc nhận dạng giọng nói tự động (Speech-to-Text) cũng tạo ra văn bản, mặc dù chúng không hoàn toàn thuộc lĩnh vực NLP. Để tạo ra kết quả, các ứng dụng này thường sử dụng một số thuật toán phổ biến trong bước cuối ...
Giới thiệu
Các Mô hình Ngôn ngữ Lớn (LLMs) đã mở ra một kỷ nguyên mới trong trí tuệ nhân tạo, giúp cải thiện cách chúng ta giải quyết các vấn đề phức tạp, từ toán học đến những câu hỏi thực tế hàng ngày. Tuy nhiên, việc nghiên cứu về cách LLMs suy nghĩ và đưa ra quyết định một cách linh hoạt trong các tình huống thay đổi liên tục vẫn còn hạn chế.
Hãy thử tưởng tượng một ví dụ khi bạn cần di c...
Giới thiệu
Các bạn đều biết rằng Reinforcement Learning from Human Feedback (RLHF) là một phương pháp hiệu quả để align các mô hình ngôn ngữ lớn (LLMs) theo preference của con người, đóng vai trò quan trọng trong sự phát triển của các mô hình hội thoại hiện đại như ChatGPT và Bard Tuy nhiên, RLHF yêu cầu rất nhiều thời gian và chi phí do cần nhãn chất lượng cao được gán bởi con người.
Phươ...
Âm thanh là gì?
Nếu học các kiến thức môn Vật lý cấp 2, cấp 3 hẳn các bạn đều biết rõ bản chất âm thanh là gì Âm thanh là tín hiệu được tạo ra bởi sự biến đổi của áp suất không khí. Những biến đổi này có thể được đo lường và biểu đồ hóa theo thời gian. Khi chúng ta đo cường độ của các biến đổi áp suất và vẽ các số đo này theo thời gian, chúng ta có thể thấy các tín hiệu âm thanh.
Âm thanh ...
Giới thiệu
LLama 3 là một mô hình mới được release gần đây bởi Meta gây xôn xao cho cộng đồng làm AI. Trong bài viết này, mình sẽ trình bày cách bạn có thể chạy một mô hình Llama 3 trên ngay chính laptop của mình. Không cần dài dòng nữa, chúng ta bắt đầu thôi
Cài đặt
Chúng ta sẽ cần 2 thư viện sau:
Với CPU: Tạo một thư mục mới tên là TestLlama3 và vào terminal chạy đoạn script sau:
Bây ...
RAG là gì?
RAG, hay Retrieval Augmented Generation, là một phương pháp kết hợp các yếu tố của truy xuất thông tin và tạo ra ngôn ngữ tự nhiên nhằm cải thiện chất lượng của văn bản được tạo ra, đặc biệt là trong bối cảnh các nhiệm vụ ngôn ngữ phức tạp như trả lời câu hỏi, tóm tắt và hoàn thành văn bản.
Mục tiêu chính của RAG là tăng độ chính xác của quá trình generate bằng cách truy xuất thông...
Giới thiệu
Trong chatbot, bộ nhớ đóng vai trò không thể phủ nhận trong việc tạo ra các cuộc hội thoại trôi chảy và gần gũi như con người. Nếu như một chatbot mà quên tên của bạn hoặc không nhớ đến các chủ đề đã thảo luận trước đó thì điều này làm mất đi bản chất của một cuộc trò chuyện với một thực thể thông minh
Bộ nhớ đóng một vai trò then chốt trong quá trình phát triển của các hệ thống...
Giới thiệu
Nếu bạn đã phát triển một ứng dụng Retrieval Augmented Generation (RAG) cho hệ thống kinh doanh thực tế, bạn có thể quan tâm đến hiệu quả của nó. Nói cách khác, bạn muốn đánh giá xem RAG hoạt động tốt như thế nào.
Hơn nữa, nếu bạn nhận thấy rằng RAG hiện tại của mình chưa đủ hiệu quả, bạn có thể cần kiểm tra tính hiệu quả của các phương pháp cải tiến RAG mới. Điều này đồng nghĩa vớ...