Dịch vì Trần Tuấn Anh, Đàm Minch Tiến, Hung Nguyễn với Nguyễn Trí Minc

Tổng quan

Kiến trúc của một mạng RNN truyền thống Các mạng neural hồi quy, còn được biến mang lại như thể RNNs, là 1 trong những lớp của mạng neural được cho phép cổng đầu ra được áp dụng nhỏng đầu vào trong lúc có các tâm lý ẩn. Đôi khi là nhỏng sau:

*
với $W_ax, W_aa, W_ya, b_a, b_y$ là những thông số được chia sẻ tạm thời cùng $g_1, g_2$ là những hàm kích hoạt.
*
Ưu điểm Hạn chế
• Khả năng xử lý nguồn vào với bất kì độ dài nào • Kích cỡ mô hình không tăng theo size nguồn vào • Quá trình tính toán thù áp dụng các thông tin cũ • Trọng số được share nhìn trong suốt thời gian • Tính toán đủng đỉnh • Khó để truy cập những biết tin xuất phát điểm từ một khoảng tầm thời hạn nhiều năm trước đó • Không thể chăm chú bất kì đầu vào về sau làm sao cho tâm trạng hiện tại

Ứng dụng của RNNs Các quy mô RNN phần lớn được áp dụng vào lĩnh vực xử lý ngôn từ tự nhiên và thoải mái cùng ghi dìm tiếng nói của một dân tộc. Các áp dụng không giống được tổng kết trong bảng bên dưới đây:

Các nhiều loại RNN Hình minch hoạ Ví dụ
Một-Một$T_x=T_y=1$
*
Mạng neural truyền thống
Một-nhiều$T_x=1, T_y>1$
*
Sinch nhạc
Nhiều-một$T_x>1, T_y=1$
*
Phân nhiều loại ý kiến
Nhiều-nhiều$T_x=T_y$
*
Ghi nhận thực thể tên
Nhiều-nhiều$T_x eq T_y$
*
Dịch máy

Hàm mất đuối Trong ngôi trường đúng theo của mạng neural hồi quy, hàm mất non $mathcalL$ của toàn bộ quá trình thời gian được tư tưởng dựa trên mất mát ngơi nghỉ đông đảo thời điểm nhỏng sau:

Lan truyền ngược theo thời gian Lan truyền ngược được hoàn thành làm việc từng một thời điểm ví dụ. Tại bước $T$, đạo hàm của hàm mất non $mathcalL$ với ma trận trọng số $W$ được màn trình diễn nhỏng sau:

Xử lí dựa vào lâu năm hạn

Các hàm kích hoạt hay được sử dụng Các hàm kích hoạt thường được sử dụng trong những modules RNN được mô tả nhỏng sau:

Sigmoid Tanh RELU
$displaystyle g(z)=frac11+e^-z$ $displaystyle g(z)=frace^z-e^-ze^z+e^-z$ $displaystyle g(z)=max(0,z)$
*
*
*

Vanishing/exploding gradient Hiện tượng vanishing và exploding gradient thường chạm mặt trong ngữ cảnh của RNNs. Lí chính vì sao chúng thường xảy ra kia là rất khó để sở hữu được sự dựa vào lâu năm vì chưng multiplicative sầu gradient rất có thể tăng/sút theo hàm mũ khớp ứng với con số các tầng.Quý khách hàng đã xem: Recurrent neural network là gì

Gradient clipping Là một kĩ thuật được sử dụng nhằm giải quyết và xử lý vụ việc exploding gradient xẩy ra Lúc thực hiện lan truyền ngược. Bằng câu hỏi số lượng giới hạn quý hiếm lớn số 1 cho gradient, hiện tượng kỳ lạ này sẽ được kiểm soát vào thực tế.

Bạn đang xem: Recurrent neural network là gì

*

Các một số loại cổng Để giải quyết sự việc vanishing gradient, những cổng rõ ràng được áp dụng trong một vài ba các loại RNNs cùng thông thường sẽ có mục đích cụ thể. Chúng thường được kí hiệu là $Gamma$ và bởi với:

Với $W, U, b$ là các hệ số của một cổng với $sigma$ là hàm sigmoid. Các nhiều loại chủ yếu được tổng kết làm việc bảng dưới đây:

Loại cổng Vai trò Được thực hiện trong
Cổng cập nhật $Gamma_u$ Dữ liệu cũ phải gồm trung bình quan trọng như thế nào sinh sống hiện tại tại? GRU, LSTM
Cổng relevance $Gamma_r$ Bỏ qua báo cáo phía trước? GRU, LSTM
Cổng quên $Gamma_f$ Xoá ô hay không xoá? LSTM
Cổng ra $Gamma_o$ Biểu thị một ô ở mức độ bao nhiêu? LSTM

GRU/LSTM Gated Recurrent Unit (GRU) và Các đơn vị chức năng bộ lưu trữ dài-ngắn hạn (LSTM) ứng phó cùng với vụ việc vanishing gradient khi gặp gỡ cần bởi mạng RNNs truyền thống, với LSTM là sự tổng quát của GRU. Phía dưới là bảng tổng kết các phương thơm trình đặc trưng của mỗi con kiến trúc:

Đặc tính Gated Recurrent Unit (GRU) Bộ lưu giữ dài-thời gian ngắn (LSTM)
$ ildec^$ $ extrmtanh(W_c+b_c)$ $ extrmtanh(W_c+b_c)$
$c^$ $Gamma_ustar ildec^+(1-Gamma_u)star c^$ $Gamma_ustar ildec^+Gamma_fstar c^$
$a^$ $c^$ $Gamma_ostar c^$
Các prúc thuộc
*
*

Chú ý: kí hiệu ⋆ chỉ phxay nhân từng bộ phận cùng nhau thân nhì vectors.

Các biến thể của RNNs Bảng dưới đây tổng kết những kiến trúc thường xuyên được sử dụng không giống của RNN:

Học từ đại diện

Trong phần này, chúng ta kí hiệu $V$ là tập trường đoản cú vựng và $|V|$ là kích thước của nó.

Giải ưa thích cùng các kí hiệu

Các kỹ năng biểu diễn Có hai cách chủ yếu để màn trình diễn trường đoản cú được tổng kết sinh sống bảng mặt dưới:

Biểu diễn 1-hot Word embedding
*
*
• Lưu ý $o_w$ • Tiếp cận Naive sầu, không có lên tiếng chung • Lưu ý $e_w$ • Xem xét độ tương đồng của các từ

Embedding matrix Cho một từ $w$, embedding matrix $E$ là một trong ma trận tsi mê chiếu diễn đạt 1-hot $o_w$ của nó cùng với embedding $e_w$ của nó nlỗi sau:

Crúc ý: học tập embedding matrix có thể xong bằng phương pháp áp dụng những quy mô target/context likelihood.

Word embeddings

Word2vec Word2vec là 1 trong framework triệu tập vào vấn đề học word embeddings bằng cách khoảng chừng tài năng nhưng mà một tự cho trước được bao bọc vì chưng các trường đoản cú khác. Các quy mô thịnh hành bao hàm skip-gram, negative sampling với CBOW.

*

Skip-gram Mô hình skip-gram word2vec là 1 task học có tính toán, nó học những word embeddings bằng cách Đánh Giá khả năng của bất kỳ target word $t$ mang lại trước làm sao xẩy ra với context word $c$. Bằng vấn đề kí hiệu $ heta_t$ là tmê mẩn số đi kèm theo cùng với $t$, Tỷ Lệ $P(t|c)$ được xem nlỗi sau:

Chụ ý: Cộng tổng toàn bộ những từ bỏ vựng vào mẫu số của phần softmax khiến cho mô hình này tốn những chi phí tính tân oán. CBOW là một trong những quy mô word2vec không giống áp dụng những từ bao bọc để tham dự đoán một từ bỏ mang lại trước.

Negative sampling Nó là 1 trong tập của các cỗ phân một số loại nhị phân sử dụng logistic regressions cùng với phương châm là review kĩ năng nhưng mà một ngữ chình ảnh cho trước với những target words cho trước rất có thể xuất hiện thêm đồng thời, với những quy mô đang rất được huấn luyện và giảng dạy bên trên các tập của $k$ negative sầu examples và 1 positive example. Cho trước context word $c$ với target word $t$, dự đoán thù được diễn tả bởi:

Chụ ý: cách tiến hành này tốn ít chi phí tính toán rộng mô hình skip-gram.

GloVe Mô hình GloVe, viết tắt của global vectors for word representation, nó là một trong kỹ năng word embedding thực hiện ma trận đồng mở ra $X$ cùng với từng $X_i,j$ là chu kỳ nhưng trường đoản cú đích (target) $i$ xuất hiện tại ngữ chình họa $j$. Cost function $J$ của nó nhỏng sau:

$f$ là hàm trong số với $X_i,j=0Longrightarrow f(X_i,j)=0$. Với tính đối xứng cơ mà $e$ cùng $ heta$ đã đạt được trong quy mô này, word embedding cuối cùng $e_w^( extrmfinal)$ được khái niệm nhỏng sau:

So sánh những từ

Độ tương đồng cosine Độ tương đương cosine thân các trường đoản cú $w_1$ cùng $w_2$ được trình diễn như sau:

$t$-SNE $t$-SNE (t-distributed Stochastic Neighbor Embedding) là một kĩ thuật nhằm giảm xuống số chiều của không gian embedding. Trong thực tế, nó thường xuyên được sử dụng nhằm trực quan hoá những word vectors vào không khí 2D (2D).

Xem thêm: Tổng Hợp Top 20 Sữa Rửa Mặt Nào Tốt Cho Da Dầu Mụn Tốt Nhất 2021

Mô hình ngôn ngữ

Tổng quan lại Một mô hình ngôn ngữ đang dự đoán thù phần trăm của một câu $P(y)$.

Mô hình $n$-gram Mô hình này là giải pháp tiếp cận naive với mục tiêu định lượng Phần Trăm mà một biểu hiện lộ diện vào văn uống bản bằng cách đếm chu kỳ xuất hiện của nó vào tập dữ liệu huấn luyện và giảng dạy.

Độ láo tạp Các mô hình ngữ điệu thường xuyên được review dựa vào độ đo hỗ tạp, cũng rất được biết đến là PP.., có thể được gọi như là nghịch hòn đảo Phần Trăm của tập dữ liệu được chuẩn hoá vì chưng con số những tự $T$. Độ hỗn tạp càng rẻ thì sẽ càng giỏi với được khái niệm nlỗi sau:

Crúc ý: PPhường thường xuyên được áp dụng vào $t$-SNE.

Dịch máy

Tổng quan lại Một quy mô dịch thứ tương tự như cùng với quy mô ngôn ngữ ngoại trừ nó bao gồm một mạng encoder được đặt vùng phía đằng trước. Vì lí bởi vì này, nhiều lúc nó còn được biết đến là quy mô ngôn ngữ tất cả ĐK. Mục tiêu là tra cứu một câu văn uống $y$ nhỏng sau:

Tìm tìm Beam Nó là 1 trong những giải thuật tra cứu tìm heuristic được thực hiện trong dịch máy cùng ghi nhận tiếng nói nhằm kiếm tìm câu văn $y$ đúng duy nhất khớp ứng cùng với nguồn vào $x$.

• Cách 1: Tìm top B các từ y • Bước 2: Tính xác suất có điều kiện y|x,y,...,y • Cách 3: Giữ top B những tổng hợp x,y,...,y

Crúc ý: nếu như độ rộng của beam được thiết lập là một trong, thì nó tương đương cùng với tra cứu tìm tđắm đuối lam naive.

Độ rộng lớn Beam Độ rộng lớn beam $B$ là 1 trong những tđê mê số của giải mã tra cứu tìm beam. Các cực hiếm to của $B$ tạo thành hiệu quả xuất sắc hơn nhưng với hiệu năng thấp hơn và lượng bộ lưu trữ sử dụng sẽ tăng.

Chuẩn hoá độ lâu năm Đến cải thiện tính bất biến, beam search hay được vận dụng mục tiêu chuẩn chỉnh hoá sau, hay được gọi là kim chỉ nam chuẩn chỉnh hoá log-likelihood, được khái niệm nlỗi sau:

Phân tích lỗi lúc đạt được một phiên bản dịch tồi $widehaty$, chúng ta có thể từ hỏi rằng tại vì sao chúng ta không tồn tại được một công dụng dịch giỏi $y^*$ bằng câu hỏi tiến hành Việc so với lỗi nhỏng sau:

Trường hợp $P(y^*|x)>P(widehaty|x)$ $P(y^*|x)leqslant P(widehaty|x)$
Nguyên ổn nhân sâu xa Lỗi Beam search lỗi RNN
Biện pháp xung khắc phục Tăng beam width • Thử phong cách thiết kế không giống • Chính quy • Lấy những dữ liệu hơn

Điểm Bleu Bilingual evaluation understudy (bleu) score định lượng mức độ xuất sắc của dịch máy bằng cách tính một độ tương đồng dựa trên dự đân oán $n$-gram. Nó được quan niệm nhỏng sau:

Chụ ý: một mức phạt nthêm rất có thể được vận dụng cùng với những dự đoán dịch nđính nhằm tránh bài toán có tác dụng phóng đại quý giá bleu score.

Chú ý

Attention mã sản phẩm Mô hình này được cho phép một RNN tập trung vào các phần ví dụ của nguồn vào được xem xét là đặc biệt quan trọng, nó giúp nâng cấp tính năng của mô hình công dụng trong thực tiễn. Bằng việc kí hiệu $alpha^$ là mức độ chăm chú nhưng đầu ra $y^$ bắt buộc gồm đối với hàm kích hoạt $a^$ với $c^$ là ngữ cảnh nghỉ ngơi thời điểm $t$, họ có:

Attention weight Sự chăm chú cơ mà Áp sạc ra $y^$ yêu cầu tất cả cùng với hàm kích hoạt $a^$ với $lpha^$ được xem nlỗi sau: