Machine Learning là gì?


  • administrators

    Machine Learning là một phương phương pháp phân tích dữ liệu và tự động xây dựng thành những mô hình. Sử dụng các thuật toán để áp dụng nhiều lần đối với dữ liệu, machine learning cho phép máy tính nghiên cứu và tìm ra những thông tin hữu ích từ dữ liệu mà không cần lập trình trước nơi tìm.

    Sự phát triển của Machine Learning

    Công nghệ machine learning hiện nay được sinh ra từ việc nhận dạng theo mô hình và dựa trên một lý thuyết đó là máy tính có thể tự nghiên cứ để thực hiện những công việc đặc biệt mà không cần lập trình trước; các nhà nghiên cứu về trí tuệ nhân tạo muốn xem liệu máy tính có thể tự học thông qua phân tích dữ liệu hay không. Việc áp dụng lặp đi lặp lại các thuật toán trong machine learning giúp các mô hình được tiếp xúc với dữ liệu mới, chúng có thể mô phỏng một cách độc lập, bắt chước những tính toán trước đó để cho ra những kết quả đáng tin cậy.

    Trong khi nhiều thuật toán machine learning đã tồn tại một thời gian dài, thì việc ứng dụng những tính toán phức tạp cho big data để xử lí ở quy mô lớn hơn, nhanh hơn lại mới phát triển gần đây. Dưới đây là một vài ví dụ về những ứng dụng của machine learning:

    • Xe tự lái của Google.
    • Việc thông qua lịch sử duyệt web của bạn để giới thiệu những sản phẩm liên quan trên các trang như Amazon, Netflix, Facebook.
    • Biết những gì khách hàng đang nói về bạn trên Twitter.
    • Phát hiện các gian lận trong giao dịch.

    Hãy xem qua video dưới đây từ SAS để biết machine learning là gì, và tại sao nó lại phổ biến như vậy.

    Tại sao Machine Learning lại quan trọng?

    Việc machine learning được quan tâm rất lớn là do data miningphân tích Bayesian đã phổ biến hơn bao giờ hết. Sự gia tăng về lượng, chủng loại của dữ liệu, bên cạnh đó các mô hình tính toán ngày càng tốn ít chi phí triển khai và mạnh mẽ hơn, chi phí lưu trữ dữ liệu cũng giảm đi rất nhiều. Những điều này cho phép nhanh chóng và tự động tạo ra những mô hình có thể phân tích dữ liệu, cho ra kết quả nhanh và chính xác trên qui mô rất lớn và phức tạp. Thông qua đó, một tổ chức cơ quan nào đó có thể xác định tỷ lệ lợi nhuận mang lại tốt hơn và tránh được những rủi ro tiềm ẩn.

    Ứng dụng của Machine Learning

    Hầu hết những ngành công nghiệp làm việc với big-data đều công nhận giá trị mà machine learning mang lại. Bằng việc thu thập và phân tích lượng thông tin lớn, các tổ chức có thể làm việc hiệu quả và nâng cao sức cạnh tranh của mình.

    Dịch vụ tài chính

    Các ngân hàng và doanh nghiệp trong ngành tài chính sử dụng công nghệ machine learning cho 2 mục đích chính: tìm kiếm những thông tin quan trọng từ dữ liệu đầu vào, và ngăn chặn sự gian lận trong giao dịch. Những thông tin có thể giúp xác định các cơ hội đầu tư, hoặc giúp các nhà đầu tư đưa ra thời điểm giao dịch thích hợp. Bên cạnh đó Data mining cũng có thể xác định những khách hàng có hồ sơ rủi ro cao, hoặc thông qua việc giám sát mạng lưới giao dịch để cảnh báo những dấu hiệu gian lận.

    Chăm sóc sức khỏe

    Machine learning có xu hướng phát triển mạnh trong ngành công nghiệp chăm sóc sức khỏe, có thể thấy sự xuất hiện của các thiết bị và cảm biến mang trên người để theo dõi sức khỏe của bệnh nhân ngày càng nhiều. Công nghệ này cũng giúp các chuyên gia y tế phân tích dữ liệu và đưa ra những xu hướng để chẩn đoán, điều trị.

    Dầu và khí đốt

    Tìm những nguồn năng lượng mới, phân tích tình hình khoáng sản, cảm biến trong các máy lọc dầu, phân phối dầu mỏ một cách hợp lí để hiệu quả và tốn ít chi phí hơn.

    Chính phủ

    Giúp phân tích các nguồn dữ liệu khác nhau để giảm thiểu chi phí và tăng hiệu quả cho các chương trình phúc lợi xã hội. Ví dụ phát hiện sự gian lận danh tính trong công tác dân số và quản lí xuất nhập cảnh. Sử dụng để nhận dang chữ viết tay trong dịch vụ Bưu điện (US Postal Service).

    Marketing và bán hàng

    Các website sử dụng dữ liệu duyệt web và mua sắm của khách hàng để đề xuất những sản phẩm mà họ có thể quan tâm chính là ứng dụng machine learning. Nó thu thập và phân tích dữ liệu để cá nhân hóa các trải nghiệm mua sắm (hoặc thúc đẩy chiến dịch marketing) trong ngành bán lẻ.

    Vận tải

    Phân tích dữ liệu để xác định các mô hình và các xu hướng, làm tiền đề để xây dựng các tuyến vận chuyển hiệu quả và dự đoán các tiềm năng để gia tăng lợi nhuận. Các công cụ phân tích và mô hình hóa dữ liệu của machine learning rất quan trọng đối với các công ty vận chuyển, cơ quan quản lí phương tiện công cộng và các tổ chức vận tải khác.

    Những phương thức phổ biến trong machine learning

    Hai trong số những phương thức được chấp nhận rộng rãi nhất trong machine learning là supervised learning và unsupervised learning nhưng bên cạnh đó cũng có nhiều phương thức khác.

    Supervised learning là thuật toán sử dụng các label (nhãn) để làm đầu vào từ đó xác định đầu ra tương ứng với label được đưa vào. Ví dụ, một phần của thiết bị có các điểm dữ liệu đã labeled là F (failed) hoặc R (runs). Thuật toán này sẽ nhận một tập hợp các kết quả đầu vào cùng với những đầu ra tương ứng với các đầu vào đó, sau đó sẽ so sánh các đầu ra với đầu ra thực tế để tìm ra lỗi. Thông qua những phương thức như phân loại, hồi quy, dự đoán và gradient boosting, supervised learning sẽ sử dụng các khuôn mẫu trước đó để dự đoán label cho những dữ liệu unlabeled được thêm vào. Thuật toán này thường được ứng dụng trong việc phân tích các dữ liệu quá khứ để dự đoán các sự kiện có khả năng xảy ra trong tương lai. Ví dụ, nó có thể dự đoán một thẻ tín dụng giao dịch gian lận hay một khách hàng bảo hiểm có thể đâm đơn kiện.

    Unsupervised learning sử dụng đối với những loại dữ liệu chưa từng được labeled trước đó. Nó phải tìm ra những điểm chung và nổi bật của dữ liệu. Thuật toán này làm việc tốt với các loại dữ liệu trong giao dịch. Ví dụ, nó có thể phân loại khách hàng theo những đặc tính giống nhau để áp dụng chương trình marketing phù hợp. Hoặc tìm ra những đặc điểm để tách loại khách hàng này khỏi những người khác. Những kỹ thuật phổ biến bao gồm self-organizing maps, nearest-neighbor mapping, k-means clustering and singular value decomposition.

    Semisupervised learning được ứng dụng giống như supervised learning, nhưng cho cả dữ liệu labeled và unlabeled, thường là một lượng nhỏ dữ liệu labeled và lượng lớn dữ liệu unlabeled. Thuật toán này có thể được sử dụng cùng với các phương thức phân loại, hồi quy và dự đoán. Semisupervised learning được dùng khi mà chi phí liên quan đến việc labeling quá cao và không cho phép labeling toàn bộ dữ liệu. Ví dụ xác định khuôn mặt của từng người thông qua webcam.

    Reinforcement learning là thuật toán được dùng trong robotics, gaming và navigation. Thuật toán này sẽ lọc qua bản thử nghiệm và bản lỗi của những hoạt động mà kỳ vọng mang lại kết quả tốt nhất. Loại này có ba thành phần chính là: the agent (chủ thể), the environment (môi trường tương tác của chủ thể) và actions (hoạt động của chủ thể). Mục tiêu của thuật toán này là giúp chủ thể lựa chọn được hoạt động mà có thể tối đa hóa kết quả mang lại hoặc tiết kiệm được một lượng thời gian nhất định. Chủ thể sẽ đạt được mục đích nhanh nhất thông qua những quy tắc tốt nhất mà Reinforcement learning đưa ra.

    Sự khác nhau giữa data mining, machine learning và deep learning

    Mặc dù những phương thức này đều có chung mục đích là phân tích dữ liệu, thành lập các mẫu và các mối quan hệ để phục vụ cho việc ra quyết định, nhưng chúng lại có cách tiếp cận và tính năng khác nhau.

    Data Mining

    Data mining có thể được xem như là nguồn gốc của rất nhiều phương thức phân tích dữ liệu. Nó liên quan đến các phương pháp thống kế truyền thống và cả machine learning. Data mining áp dụng nhiều loại hình phân tích khác nhau để xác định những mẫu chưa được từng được biết đến của dữ liệu. Nó bao gồm các thuật toán thống kê, machine learning, phân tích văn bản, phân tích chuỗi thời gian và nhiều loại khác. Data mining cũng bao gồm cả những công việc liên quan đến thao tác và lưu trữ dữ liệu.

    Machine Learning

    Sự khác biệt chính của machine learning là việc nó chỉ là một loại hình thống kê, mục đích là để hiểu cấu trúc của dữ liệu. Machine learning được phát triển dựa trên khả năng sử dụng máy tính để thăm dò cấu trúc dữ liệu, ngay cả khi không có kiến thức gì về loại cấu trúc đó. Nó thường sử dụng phương pháp lặp đi lặp lại các thuật toán để nghiên cứ dữ liệu một cách tự động cho đến khi tìm ra một khuôn mẫu tối ưu nhất.

    Deep learning

    Deep learning kết hợp những tiến bộ của điện toán và các dạng đặc biệt của mạng lưới thần kinh để nghiên cứu những mẫu phức tạp trong một kho dữ liệu lớn. Một ứng dụng tuyệt vời của kỹ thuật deep learning đó là xác định các đối tượng hình ảnh và các từ ngữ trong âm thanh. Các nhà nghiên cứ hiện nay đang tìm cách áp dụng những khuôn mẫu đã được công nhận cho nhiều công việc phức tạp như dịch thuật tự động, chẩn đoán y học và những vấn đề về kinh tế - xã hội.

    Làm việc với machine learning như thế nào

    Để đạt được kết quả tốt nhất khi làm việc với machine learning, bạn cần phải biết kết hợp các thuật toán tốt nhất với nhau cùng với những quy trình và công cụ phù hợp. Dưới đây là những thuật toán hàng đầu trong machine learning:



  • Bài giới thiệu khá hay.
    Anh có thể chia sẻ thêm thông tin hay các tài liệu mở rộng không ah ?


Hãy đăng nhập để trả lời
 

Có vẻ như bạn đã mất kết nối tới Cộng đồng Python Việt Nam, vui lòng đợi một lúc để chúng tôi thử kết nối lại.