SOLUTION MANUAL
Linear Algebra and Optimization for Machine
Learning
1st Edition by Charu Aggarwal. Chapters 1 – 11
vii
,Contents
1 Linear Algebra and Optimization: An Introduction
J A J A J A J A J A 1
2 Linear Transformations and Linear Systems
J A J A J A J A 17
3 Diagonalizable Matrices and Eigenvectors J A J A J A 35
4 Optimization Basics: A Machine Learning View
JA JA JA JA JA 47
5 Optimization Challenges and Advanced Solutions
J A J A J A J A 57
6 Lagrangian Relaxation and Duality
J A J A J A 63
7 Singular Value Decomposition
J A J A 71
8 Matrix Factorization
J A 81
9 The Linear Algebra of Similarity
J A J A J A J A 89
10 The Linear Algebra of Graphs
J A J A J A J A 95
11 Optimization in Computational Graphs
J A J A J A 101
viii
,Chapter 1 J A
Linear Algebra and Optimization: An Introduction
JA JA JA JA JA
1. For any two vectors x and y, which are each of length a, show that (
J A J A J A J A J A J A J A J A J A J A J A J A J A J A J A
i) x − y is orthogonal to x + y, and (ii) the dot product of x − 3y and x + 3y
J A JA JA J A JA JA JA JA JA J A JA J A JA JA JA JA JA JA J A JA JA JA
is negative.
J A J A
(i) The first is simply
JA · x− x y y using the distributive property of matrix
JA JA JA J A
JA J JA A J A J A JA JA JA JA JA JA JA
multiplication. The ·dot product of a vector with itself is its squared length JA JA JA JA JA JA JA JA JA JA JA JA
. Since both vectors are of the same length, it follows that the result is 0. (ii
JA JA JA JA JA JA JA JA JA JA JA JA JA JA JA JA
) In the second case, one can use a similar argument to show that the resul
JA JA JA JA JA JA JA JA JA JA JA JA JA JA JA
t is a2 − 9a2, which is negative.
JA JA JA JA JA JA JA
2. Consider a situation in which you have three matrices A, B, and C, of size J A J A J A JA J A J A J A J A JA JA J A JA JA J A
s 10 × 2, 2 × 10, and 10 × 10, respectively.
J A JA JA JA JA JA JA JA JA JA JA
(a) Suppose you had to compute the matrix product ABC. From an efficiency JA JA JA JA JA JA JA JA JA JA JA
per-
JA
spective, would it computationally make more sense to compute (AB)C or w
JA JA JA JA JA JA JA JA JA JA JA JA
ould it make more sense to compute A(BC)? JA JA JA JA JA JA JA
(b) If you had to compute the matrix product CAB, would it make more sense
JA JA JA JA JA JA JA JA JA JA JA JA JA
JA to compute (CA)B or C(AB)?
JA J A J A J A
The main point is to keep the size of the intermediate matrix as small a
JA JA JA JA JA JA JA JA JA JA JA JA JA JA
s possible in order to reduce both computational and space requiremen
JA J A JA JA JA JA JA JA JA JA
ts. In the case of ABC, it makes sense to compute BC first. In the case of
JA JA JA JA JA JA JA JA JA JA JA JA JA JA JA JA JA
CAB it makes sense to compute CA first. This type of associativity prop
JA JA JA JA JA JA JA JA JA JA JA JA
erty is used frequently in machine learning in order to reduce computati
JA JA JA JA JA JA JA JA JA JA JA
onal requirements. JA
3. Show that if a matrix A satisfies— A = J A J A J A J A J A J A J A J A
A , then all the diagonal elements of t
T
JA J A JA JA JA JA JA JA
he matrix are 0. JA JA JA
Note that A + AT = 0. However, this matrix also contains twice the diago
JA JA JA JA JA JA JA JA JA JA JA JA JA JA
nal elements of A on its diagonal. Therefore, the diagonal elements of
JA JA JA JA JA JA JA JA JA JA JA JA
A must be 0. JA JA JA
4. Show that if we have a matrix satisfying— A = JA JA JA JA JA JA JA JA JA
1
, AT , then for any column vector x,
JA JA JA JA JA JA JA JA
we have x Ax = 0.
JA J A
T
JA JA JA
Note that the transpose of the scalar xT Ax remains unchanged. Therefore
J A J A J A J A J A J A J A JA J A J A J A
, we have
J A J A
xT Ax = (xT Ax)T = xT AT x = −x T Ax. Therefore, we have 2xT Ax = 0.
JA JA JA JA J A JA JA JA JA JA JA J A J A J A J A JA JA JA
2