Mẹo nhỏ: Để tìm kiếm chính xác các tác phẩm của Phebinhvanhoc.com.vn, hãy search trên Google với cú pháp: "Từ khóa" + "phebinhvanhoc". (Ví dụ: tác phẩm chí phèo phebinhvanhoc). Tìm kiếm ngay
420 lượt xem

Hadoop là gì? Hiểu thêm về kiến trúc của Hadoop | TopDev

Bạn đang quan tâm đến Hadoop là gì? Hiểu thêm về kiến trúc của Hadoop | TopDev phải không? Nào hãy cùng PHE BINH VAN HOC theo dõi bài viết này ngay sau đây nhé!

Video đầy đủ Hadoop là gì? Hiểu thêm về kiến trúc của Hadoop | TopDev

dữ liệu lớn đang trở thành một phần sức mạnh và tài sản lớn của mọi doanh nghiệp và hadoop là công nghệ cốt lõi để lưu trữ và truy cập dữ liệu lớn.

hadoop là gì?

hadoop là một khuôn khổ Apache mã nguồn mở cho phép phát triển các ứng dụng phân tán (xử lý phân tán) để lưu trữ và quản lý các tập dữ liệu lớn. hadoop thực hiện mô hình mapreduce, trong đó ứng dụng được chia thành các đoạn khác nhau chạy song song trên nhiều nút khác nhau. hadoop được viết bằng java, nhưng vẫn hỗ trợ c ++, python, perl thông qua cơ chế phát trực tuyến.

hadoop giải quyết vấn đề gì?

  • xử lý và làm việc với lượng lớn dữ liệu petabyte.
  • xử lý trong môi trường phân tán, dữ liệu được lưu trữ trên nhiều phần cứng khác nhau, yêu cầu xử lý quản lý đồng bộ
  • thường xuyên xảy ra lỗi.
  • băng thông hạn chế giữa phần cứng vật lý chứa dữ liệu phân tán.

kiến ​​trúc hadoop là gì?

một cụm hadoop nhỏ bao gồm 1 nút chính và nhiều nút công nhân / nô lệ. toàn bộ cụm chứa 2 lớp, một là lớp mapreduce và lớp còn lại là lớp hdfs. mỗi lớp có các thành phần liên kết riêng của nó. nút chính bao gồm trình theo dõi công việc, trình theo dõi tác vụ, nút tên và nút dữ liệu. nút nô lệ / công nhân bao gồm một nút dữ liệu và một trình theo dõi tác vụ. cũng có thể nút phụ / công nhân chỉ là dữ liệu hoặc nút tính toán.

khung hadoop bao gồm 4 mô-đun:

1. hệ thống tệp phân tán hadoop (hdfs)

Đây là hệ thống tệp phân tán cung cấp quyền truy cập hiệu suất cao cho các ứng dụng khai thác dữ liệu. Hệ thống tệp phân tán hadoop (hdfs) là một hệ thống tệp ảo. khi chúng ta di chuyển 1 tập tin trong hdfs, nó sẽ tự động tách thành nhiều phần nhỏ. các phần nhỏ của tệp sẽ được sao chép và lưu trữ trên nhiều máy chủ khác để tăng khả năng chịu lỗi và tính khả dụng cao.

hdfs sử dụng kiến ​​trúc chủ / tớ, trong đó cái chính bao gồm một nút tên để quản lý hệ thống tệp siêu dữ liệu và một hoặc nhiều nút dữ liệu tớ để lưu trữ dữ liệu thực tế.

XEM THÊM:  Đầu số 0964 là mạng gì? Ý nghĩa của đầu số 0964? Có phải số đẹp? - Thegioididong.com

một tệp định dạng hdfs được chia thành nhiều khối và các khối này được lưu trữ trong một tập hợp các nút dữ liệu. nút tên xác định ánh xạ của các khối tới các nút dữ liệu. các nút dữ liệu xử lý các tác vụ đọc và ghi dữ liệu vào hệ thống tệp. họ cũng quản lý việc tạo, phá hủy và sao chép khối thông qua chỉ thị nút tên.

2. hadoop mapreduce

đây là một hệ thống dựa trên luồng để xử lý song song các tập dữ liệu lớn. đó là một cách để chia một vấn đề dữ liệu lớn hơn thành các phần nhỏ hơn và phân phối nó trên nhiều máy chủ. mỗi máy chủ có tập hợp tài nguyên riêng và máy chủ xử lý dữ liệu cục bộ. khi máy chủ xử lý xong dữ liệu, dữ liệu sẽ được gửi trở lại máy chủ chính.

mapreduce bao gồm một chủ theo dõi công việc duy nhất (máy chủ) và các nô lệ theo dõi công việc (máy trạm) trên mỗi nút cụm. master chịu trách nhiệm quản lý tài nguyên, giám sát việc tiêu thụ tài nguyên và lập lịch các tác vụ trên các máy trạm, giám sát chúng và thực hiện lại các tác vụ bị lỗi. nô lệ theo dõi tác vụ thực thi các tác vụ do cái chủ chỉ định và cung cấp thông tin trạng thái tác vụ để cái chủ giám sát.

trình theo dõi công việc là một điểm yếu của hadoop mapreduce. nếu trình theo dõi công việc không thành công, tất cả các công việc liên quan sẽ bị chấm dứt.

3. hadoop chung

Đây là các thư viện và tiện ích java bắt buộc để các mô-đun khác sử dụng. các thư viện này cung cấp lớp hệ điều hành và hệ thống tệp trừu tượng, đồng thời chứa mã java để khởi động hadoop.

4. chuỗi hadoop

quản lý tài nguyên của hệ thống lưu trữ dữ liệu và chạy phân tích.

hadoop hoạt động như thế nào?

giai đoạn 1

Một người dùng hoặc một ứng dụng có thể gửi một công việc đến hadoop (ứng dụng công việc của hadoop) với quá trình xử lý yêu cầu và thông tin cơ bản:

  1. nơi lưu trữ dữ liệu đầu vào và đầu ra trong hệ thống dữ liệu phân tán.
  2. các lớp java ở định dạng jar chứa các dòng lệnh thực hiện chức năng cấp phát và rút gọn.
  3. cấu hình theo công việc cụ thể thông qua các tham số đã truyền.
XEM THÊM:  Pressing Tầm Cao Là Gì? Pressing tầm cao trong Bóng Đá - SPORTORE

giai đoạn 2

công việc trình khách hàng công việc hadoop (tệp jar, tệp thực thi) và cấu hình cho trình theo dõi công việc. Sau đó, máy chủ sẽ gửi các nhiệm vụ cho các máy phụ để theo dõi và quản lý tiến trình của chúng, đồng thời cung cấp thông tin trạng thái và chẩn đoán liên quan đến công việc và máy khách.

giai đoạn 3

trình theo dõi tác vụ trên các nút khác nhau thực thi tác vụ ánh xạ và trả về kết quả được lưu trữ trong hệ thống tệp.

khi “chạy hadoop” có nghĩa là chạy một tập hợp các daemon, daemon thường trú hoặc chương trình, trên các máy chủ khác nhau trên mạng của bạn. daemon có một vai trò cụ thể, một số chỉ tồn tại trên một máy chủ, một số có thể tồn tại trên nhiều máy chủ.

daemon bao gồm:

  • nút tên
  • nút dữ liệu
  • nút tên con
  • trình theo dõi công việc
  • trình theo dõi tác vụ

tại sao lại sử dụng hadoop?

ưu điểm của việc sử dụng hadoop:

  • mạnh mẽ và có thể mở rộng – bạn có thể thêm các nút mới và thay đổi chúng khi cần.
  • giá cả phải chăng và hiệu quả – không cần phần cứng đặc biệt để chạy hadoop.
  • có thể thích ứng và linh hoạt: hadoop được xây dựng với việc lưu ý đến việc xử lý dữ liệu có cấu trúc và phi cấu trúc.
  • tính khả dụng và khả năng chịu lỗi cao: khi một nút bị lỗi, nền tảng hadoop sẽ tự động chuyển sang nút đó. khác.

tham khảo:

  • https://www.mastercode.vn/blog/web-development/hadoop-la-gi-huong-dan-cai-dat-cau-hinh-hadoop-tren-windows.84
  • https://bigdataviet.wordpress.com/2015/08/08/hadoop-la-gi/

có thể bạn muốn xem thêm:

26 công cụ và kỹ thuật trong dữ liệu lớn mà bạn có thể chưa biết

dữ liệu lớn là gì? tất cả về dữ liệu lớn

dữ liệu lớn là gì? trò chuyện với cto giải pháp datamart để hiểu thêm về dữ liệu

Như vậy trên đây chúng tôi đã giới thiệu đến bạn đọc Hadoop là gì? Hiểu thêm về kiến trúc của Hadoop | TopDev. Hy vọng bài viết này giúp ích cho bạn trong cuộc sống cũng như trong học tập thường ngày. Chúng tôi xin tạm dừng bài viết này tại đây.

Website: https://phebinhvanhoc.com.vn/

Thông báo: Phê Bình Văn Học ngoài phục vụ bạn đọc ở Việt Nam chúng tôi còn có kênh tiếng anh PhebinhvanhocEN cho bạn đọc trên toàn thế giới, mời thính giả đón xem.

Chúng tôi Xin cám ơn!

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *