Strata

khoahocnlp

@khoahocnlp

Profile

Registered: 4 years ago

Giới thiệu trước hết về xử lý NLP Khóa học mới nhất của chúng tôi là phần giới thiệu đầu tiên về NLP, tuân theo triết lý giảng dạy fast.ai về san sẻ khai triển mã thực tế và cho sinh viên cảm nhận về tất cả trò chơi, trước khi đi sâu vào chi tiết cấp phải chăng hơn. những vận dụng được kể bao gồm mô phỏng hóa chủ đề, phân loại (xác định liệu tình cảm của Tìm hiểu là theo định hướng hay tiêu cực), mô phỏng tiếng nói và dịch thuật. Khóa học dạy một sự pha trộn của những chủ đề NLP truyền thống (bao gồm regex, SVD, vịnh thơ ngây, mã thông báo) và các cách mạng tâm thần gần đây (bao gồm RNNs, seq2seq, sự chú ý và kiến trúc máy biến áp), cũng như khắc phục những vấn đề đạo đức khẩn cấp, như thiên bẩm và thông báo méo mó. những chủ đề có thể được xem theo thứ tự bất kỳ. Xem thêm: khoa hoc nlp toàn bộ những mã đều bằng Python trong Jupyter Notebooks, sử dụng PyTorch và thư viện fastai . Bạn có thể sắm thấy tất cả mã cho những sổ ghi chép với sẵn trên GitHub và toàn bộ những video của các bài giảng đều có trong danh sách phát này . Khóa học này ban đầu được giảng dạy trong chương trình công nghệ dữ liệu của Đại học San Francisco vào tháng 5 tháng 6 năm 2019. USF MSDS đã còn đó được 7 năm (hơn 330 sinh viên đã phải chăng nghiệp và đi khiến cho nhà kỹ thuật dữ liệu chỉ mất khoảng này!) và hiện được lưu trữ tại Viện dữ liệu ở trung thực bụng xã SF. Trong những năm trước, Jeremy đã dạy khóa học máy và tôi đã dạy một môn đại số tuyến tính tính tự chọn như 1 phần của chương trình. điểm nổi bật NLP một số điểm thu hút của khóa học mà tôi đặc trưng hào hứng: Chuyển giao việc học cho NLP Mẹo khiến việc với các tiếng nói khác ngoài tiếng Anh Chú ý và máy biến áp các thuật toán tạo văn bản (bao gồm cả việc thực hành 1 bài báo mới trong khoảng Viện Allen) những vấn đề sai lệch và 1 số bước để giải quyết chúng một bài giảng đặc biệt của Nikhil Garg về bí quyết nhúng từ mã hóa các bản cái (và phương pháp này đã đổi thay trong 100 năm qua) khiến thế nào tiến bộ NLP đang tăng nguy cơ mất thông báo Rủi ro nâng cao lên trong khoảng các mô phỏng tiếng nói mới như GPT-2 đầy đủ các chủ đề mang thể độc lập, cho nên không cần phải trải qua khóa học nếu như bạn chỉ để ý tới các chủ đề cụ thể (mặc dù tôi kỳ vọng mọi người sẽ xem các video về thiên bẩm và thông tin sai lệch , vì đây là các chủ đề quan trọng cho mọi người để ý tới máy học tập). Lưu ý rằng video có độ dài khác nhau từ trong khoảng 20-90 phút. Đã mang phổ biến tiến bộ lớn trong NLP trong năm ngoái, và kết quả hiện đại mới đang đạt được mỗi tháng. NLP vẫn còn phần đông lĩnh vực, sở hữu các thực tại tốt nhất đổi thay và những tiêu chuẩn mới chưa được khắc phục. Điều này làm 1 thời kì thú vị để Phân tích NLP. Khóa học này bao gồm 1 sự pha trộn của các khoa học truyền thống hơn, các phương pháp tiếp cận mạng tâm thần mới hơn và những vấn đề cần kíp về méo mó và mập mờ. Xem thêm: Mindalife NLP là gì? cách thức NLP truyền thống Trong phần ba trước hết của khóa học, chúng tôi bao gồm mô phỏng hóa chủ đề với SVD, phân cái tình cảm duyệt các vịnh ngây thơ và hồi quy logisitic và regex. trên đường đi, chúng tôi Tìm hiểu các kỹ thuật xử lý quan trọng như mã thông tin và số hóa. Jeremy chia sẻ máy tính xách tay jupyter bước qua ULMFit , Dự án đột phá của anh mang Sebastian Ruder năm ngoái để ứng dụng thành công tác học chuyển sang NLP. khoa học này bao gồm huấn luyện một mô phỏng ngôn ngữ trên một kho văn bản lớn, tinh chỉnh nó cho một kho văn bản khác và nhỏ hơn, sau đấy thêm 1 bộ phân dòng vào cuối. công việc này đã được vun đắp dựa trên các bài báo vừa qua hơn như BERT, GPT-2 và XLNet. Trong tài liệu mới (kèm theo những bản cập nhật cho thư viện fastai), Jeremy chia sẻ những mẹo và thủ thuật để khiến việc có những ngôn ngữ khác ngoài tiếng Anh và xem qua các ví dụ khai triển ULMFit cho tiếng Việt và tiếng Thổ Nhĩ Kỳ. Giới thiệu về mô hình hóa ngôn ngữ Chúng tôi sẽ đi sâu vào 1 số chi tiết cơ bản về bí quyết hoạt động của các RNN thuần tuý và sau đấy xem xét mô phỏng seq2seq để dịch. Chúng tôi vun đắp mô phỏng dịch thuật của mình, thêm các bí quyết như buộc thầy giáo, chú ý và GRU để cải thiện hiệu suất. Sau đó chúng tôi đã sẵn sàng để chuyển sang Transformer, khám phá một khai triển. Hiểu RNN Dịch với Seq2Seq Thuật toán tạo văn bản (Jeremy Howard) thực hành GRU Giới thiệu về máy biến áp Máy biến áp cho dịch tiếng nói The Transformer for dịch tiếng nói The Transformer for dịch ngôn ngữ những vấn đề đạo đức trong NLP NLP đặt ra những vấn đề đạo đức quan trọng, chẳng hạn như cách thức các bản cái mang thể được mã hóa trong các từ nhúng và phương pháp các từ của những nhóm bên lề thường sở hữu khả năng được phân loại là độc hại. đó là một điều trị đặc trưng để sinh viên tấn sĩ Stanford Nikhil Garg chia sẻ công tác của mình đã được xuất bản trên PNAS về chủ đề này. Chúng tôi cũng Tìm hiểu về một khuôn khổ để hiểu rõ hơn về nguyên do của các dòng méo mó khác nhau, tầm quan trọng của việc đặt câu hỏi về công tác nào chúng ta nên hạn chế hoàn toàn và các bước để giải quyết sự bẩm tính, chả hạn như Báo cáo dữ liệu cho NLP . Nikhil Garg đã thuyết trình cho khách mời về công tác của mình cho thấy phương pháp các từ nhúng định lượng thành kiến trong 100 năm qua Nikhil Garg đã thuyết trình cho khách mời về công tác của mình cho thấy bí quyết những trong khoảng nhúng định lượng định kiến trong 100 năm qua thiên hướng ko phải là vấn đề đạo đức độc nhất vô nhị trong NLP. các mô hình tiếng nói phức tạp hơn sở hữu thể tạo ra văn xuôi fake hấp dẫn với thể nhấn chìm con người thật hoặc thao túng dư luận. Chúng tôi nhắc đến tính năng động của thông báo méo mó, rủi ro của văn bản tạo ra máy tính hấp dẫn, quyết định phát hành gây tranh luận của OpenAI cho GPT-2 và 1 số bước được yêu cầu đối có các biện pháp, như hệ thống để xác minh hoặc chữ ký số. các trong khoảng nhúng định lượng 100 năm thành kiến về giới và dân tộc (Nikhil Garg) xu hướng thuật toán các gì bạn cần biết về thông tin sai lệch Về lý do tại sao sự thiên tính thuật toán lại quan trọng, các loại khác nhau và các bước để giải quyết nó Về lý do tại sao sự thiên tư thuật toán lại quan trọng, những chiếc khác nhau và những bước để khắc phục nó Chúng tôi kỳ vọng bạn sẽ kiểm tra khóa học! rất nhiều mã cho sổ biên chép jupyter được tiêu dùng trong lớp với thể được tậu thấy trên GitHub và danh sách phát của hầu hết các video với sẵn trên YouTube . (Cập nhật để thêm) khiến quen có việc khiến cho việc mang dữ liệu trong Python, cũng như có các định nghĩa học máy (như tập huấn luyện và kiểm tra) là điều kiện tiên quyết cần yếu. 1 số kinh nghiệm với PyTorch và mạng lưới thần kinh là có ích. Xem thêm: https://www.vingle.net/posts/2854189 Như mọi lúc, tại fast.ai, chúng tôi khuyên bạn nên học trên cơ sở vật chất lúc cần thiết (quá nhiều sinh viên cảm thấy cần phải dành hàng tháng hoặc thậm chí phổ thông năm cho tài liệu nền trước lúc họ với thể mang được các gì thực thụ quan tâm đến họ, và quá thường xuyên, ấy là vật liệu nền kết thúc thậm chí ko cần thiết). nếu bạn quan tâm đến khóa học này, nhưng ko kiên cố liệu bạn sở hữu nền tảng thích hợp hay ko, hãy tiếp diễn và thử khóa học! giả dụ bạn tìm thấy những khái niệm thiết yếu mà bạn không quen thuộc, bạn luôn mang thể trợ thì giới hạn và nghiên cứu về chúng. không những thế, hãy vững chắc rà soát những diễn đàn fast.ai như 1 nơi để đặt thắc mắc và san sớt tài nguyên.

Website: https://www.mindalife.vn/

Forums

Topics Started: 0

Replies Created: 0

Forum Role: Participant