凸集合と凸関数(Convex Sets and Functions)
ベクトル空間 \( V \) が実数を含む体上のベクトル空間であるとする。
\( V \) の要素 \( v_1, \ldots, v_k \in V \) に対して、凸結合(convex combination)とは、係数が実数で非負かつその和が 1 となる線形結合のことである:
\alpha_1 v_1 + \cdots + \alpha_k v_k \\
\alpha_1, \ldots, \alpha_k \ge 0 \\
\sum_{i=1}^{k} \alpha_i = 1
集合 \( K \subseteq V \) が凸集合(convex set)であるとは、任意の要素の凸結合が再び \( K \) に含まれることをいう。
すなわち、\( K \) の任意の 2 点の凸結合が常に \( K \) に含まれる場合、\( K \) は凸である。幾何学的には、「任意の 2 点を結ぶ線分がすべて \( K \) の中にある」と言い換えられる。
すなわち、\( K \) には「へこみ」や「穴」が存在しない。
また、任意の \( \alpha > 0 \) に対して \( x \in K \Rightarrow \alpha x \in K \) が成り立つような凸集合 \( K \) は凸錐(convex cone)と呼ばれる(言い換えれば、正の線形結合が \( K \) に含まれる)。
2つの凸集合(または凸錐)の和集合や共通部分も、それぞれ再び凸集合(または凸錐)であることが容易に確認できる。
次に、\( V \) が実または複素ノルム空間であるとする。このとき、開集合・閉集合・コンパクト集合を考えることができる。閉凸集合 \( K \) の極点(extreme point)とは、次の条件を満たす点 \( z \in K \) のことである:
z = \alpha x + (1 - \alpha) y \\ 0 \lt \alpha \lt 1 \\ x, y \in K \\ \Rightarrow \ x = y = z
すなわち、\( z \) は非自明な凸結合として表せない点である。
閉凸集合には有限個の極点(例:多面体)、無限個の極点(例:閉円盤)、または極点を持たないもの(例:閉上半平面 \( \mathbb{R}^2_+ \))もある。
しかし、コンパクト凸集合は必ず極点をもつ。
集合 \( S \subseteq V \) の凸包(convex hull)、記号で \( \mathrm{Co}(S) \) は、\( S \) の要素のすべての凸結合の集合、すなわち \( S \) を含む「最小の凸集合」(全ての凸集合の交わり)である。クライン=ミルマンの定理(Krein–Milman theorem)によれば、コンパクト凸集合はその極点の凸包の閉包に等しい。
コンパクト凸集合が有限個の極点を持つとき、それは有限生成(finitely generated)であるといい、その極点をその凸集合の生成元(generators)と呼ぶ。
カラテオドリの定理(Carathéodory theorem)によれば、集合 \( S \subseteq \mathbb{R}^n \) の凸包に属する任意の点は、\( S \) の高々 \( n + 1 \) 個の点の凸結合として表すことができる。
次に、\( V \) を内積 \( \langle \cdot, \cdot \rangle \) をもつ実内積空間とする。このとき、分離超平面定理(separating hyperplane theorem)は次のように述べられる。
非空で交わらない2つの凸集合 \( K_1, K_2 \subseteq V \) があり、\( K_1 \) が閉集合で \( K_2 \) がコンパクトであるとする。
このとき、\( V \) の中に超平面 \( H \) が存在して、\( K_1 \) が \( H \) によって定まる閉半空間の一方に、\( K_2 \) が他方に含まれる。
すなわち、\( H \) は \( K_1 \) と \( K_2 \) を分離する。
超平面 \( H \) は、1次元部分空間の直交補空間の平行移動として次のように表される:
H = \{ x \in V : \langle x - p, q \rangle = 0 \} \\
p, q \in V, \ q \ne 0
このとき、\( H \) により次のような2つの開半空間が定まる:
H^+ = \{ x \in V : \langle x - p, q \rangle \gt 0 \} \\
H^- = \{ x \in V : \langle x - p, q \rangle \lt 0 \}
また、それぞれの閉半空間は次のように表される:
H^+_0 = H^+ \cup H \\ H^-_0 = H^- \cup H
したがって、分離とはある \( p, q \) に対して \( K_1 \subseteq H^+_0 \) かつ \( K_2 \subseteq H^-_0 \) が成り立つことを意味する。
もし \( K_1 \) と \( K_2 \) の閉包が交わらない場合には、分離を厳密分離(strict separation)とすることができる。
すなわち、\( K_1 \subseteq H^+ \)、\( K_2 \subseteq H^- \) が成り立つ。
さらに、有界集合 \( S \subseteq V \) の凸包の閉包は、\( S \) を含むすべての閉半空間の交わりとして得られる。
次に、\( V = \mathbb{C}^n \) が複素内積空間である場合を考える。
超平面や半空間の定義は類似しているが、ここでは \( \mathbb{C}^n \) を \( \mathbb{R}^{2n} \) と同一視し、内積をその実部で置き換える必要がある。
すなわち、\( x + i y \in \mathbb{C}^n \) を次のように対応づける:
x + i y \ \longleftrightarrow \
\begin{bmatrix}
x \\ y
\end{bmatrix}
\in \mathbb{R}^{2n}
このとき、複素内積の実部について次が成り立つ:
\operatorname{Re} \langle x_1 + i y_1, \ x_2 + i y_2 \rangle
= \langle x_1, x_2 \rangle + \langle y_1, y_2 \rangle
したがって、対応するベクトル \( \begin{bmatrix} x_1 \\ y_1 \end{bmatrix}, \begin{bmatrix} x_2 \\ y_2 \end{bmatrix} \) に対して、 \(\langle x_1, x_2 \rangle + \langle y_1, y_2 \rangle\) は実内積となる。これにより、\( \mathbb{R}^{2n} \) 上の超平面と半空間の幾何的な解釈が、\( \mathbb{C}^n \) においても適用できる。
実数値関数 \(f\) が凸集合 \(K \subseteq V\) 上で定義されているとき、すべての \(0 \lt \alpha \lt 1\) および \(x,y \in K,\, x \neq y\) に対して次が成り立つとき、\(f\) は凸関数である。
f(\alpha x + (1 - \alpha) y) \le \alpha f(x) + (1 - \alpha) f(y)
不等式 (B1) が常に厳密に成り立つとき、\(f\) は厳密凸関数である。逆に、(B1) の向きをすべての \(0 \lt \alpha \lt 1\) と \(x,y \in K,\, x \neq y\) について反転させたとき、\(f\) は凹関数(常に厳密なら厳密凹関数)である。等価的に、凹関数は凸関数の負である。
幾何学的には、任意の 2 点 \(f(x)\) と \(f(y)\) を結ぶ弦は、凸関数のグラフの上側(凹関数なら下側)に位置する。
線形関数は同時に凸かつ凹である。
ここで \(V=\mathbb{R}^n\) で \(K\) が開集合とする。
ヘッセ行列を次のように定義する。
H(x) \equiv \left[ \frac{\partial^2 f}{\partial x_i \partial x_j}(x) \right]_{i,j}
この行列は \(M_n(\mathbb{R})\) に属する対称行列であり、有界な凸関数 \(f\) については \(K\) のほとんどの点で存在する。
そのような点ではヘッセ行列は必ず半正定値であり、厳密凸の場合は正定値である。
逆に、ヘッセ行列が凸集合全体で半正定値(または正定値)である関数は凸(または厳密凸)である。負定値は凹性に対応する。
凸関数や凹関数の最適化には良い性質がある。
コンパクトな凸集合上では、凸関数(凹関数)の最大値(最小値)は極点で達成される。
一方、凸集合上で凸関数(凹関数)の最小値(最大値)が達成される点の集合は凸であり、局所最小(最大)は常に大域最小(最大)である。
例えば、厳密凸関数は凸集合上で高々1点で最小値をとり、その臨界点は必ず最小点である。
有用な不等式
実数の凸結合は簡単で有用な不等式を満たす。
与えられた実数 \(x_1,\dots,x_k\) と任意の凸結合
\(\alpha_1,\dots,\alpha_k \ge 0,\ \sum_{i=1}^k \alpha_i = 1\) について、次が成り立つ。
\min_{1 \le i \le k} x_i \;\le\; \sum_{i=1}^k \alpha_i x_i \;\le\; \max_{1 \le i \le k} x_i
区間上の1変数凸関数 \(f(\cdot)\) を考えると、定義の2点不等式 (B1) から帰納法により一般の \(n\)点不等式が導かれる。
f\!\left(\sum_{i=1}^n \alpha_i x_i\right) \le \sum_{i=1}^n \alpha_i f(x_i)
\\
n=2,3,\dots
ただし \(\alpha_i \ge 0,\ \sum_{i=1}^n \alpha_i = 1\) であり、各 \(x_i\) は区間内にある。
区間 \((0,\infty)\) 上の厳密凸関数 \(f(x) = -\log x\) に (B3) を適用すると、加重算術平均–幾何平均不等式が得られる。
\sum_{i=1}^n \alpha_i x_i \;\ge\; \prod_{i=1}^n x_i^{\alpha_i} \\
x_i \ge 0
特にすべての \(\alpha_i=1/n\) のとき、算術平均–幾何平均不等式になる。
\frac{1}{n}\sum_{i=1}^n x_i \;\ge\; \left(\prod_{i=1}^n x_i\right)^{1/n} \\
x_i \ge 0
等号成立はすべての \(x_i\) が等しいときに限る。
次に、区間 \((0,\infty)\) 上の厳密凸関数 \(f(x)=x^p\)(\(p\gt 1\))に (B3) を適用すると、ヘルダーの不等式が得られる。
\sum_{i=1}^n x_i y_i \;\le\;
\left(\sum_{i=1}^n x_i^p\right)^{1/p}
\left(\sum_{i=1}^n y_i^q\right)^{1/q} \\
\quad \\
x_i,y_i \gt 0,\ p\gt 1,\ \frac{1}{p}+\frac{1}{q}=1
等号成立の条件は、ベクトル \([x_i^p]\) と \([y_i^q]\) が線形従属であるときに限られる。
特に \(p=q=2\) のとき、コーシー–シュワルツの不等式となる。
\sum_{i=1}^n x_i y_i \;\le\;
\left(\sum_{i=1}^n x_i^2\right)^{1/2}
\left(\sum_{i=1}^n y_i^2\right)^{1/2} \\
\quad \\
x_i,y_i \in \mathbb{R}
等号成立はベクトル \([x_i]\) と \([y_i]\) が線形従属のときに限る。
ヘルダーの不等式の一つの極限として次が得られる。
\sum_{i=1}^n x_i y_i \;\le\;
\left(\sum_{i=1}^n x_i\right)\max_{1 \le i \le n} y_i \\
\quad \\
x_i,y_i \ge 0
ヘルダーの不等式から、ミンコフスキーの加法不等式(Minkowski’s sum inequality)を導くことができる。
\left(\sum_{i=1}^n (x_i + y_i)^p \right)^{1/p}
\le
\left(\sum_{i=1}^n x_i^p \right)^{1/p}
+
\left(\sum_{i=1}^n y_i^p \right)^{1/p} \\
\quad \\
x_i,y_i \ge 0,\ p>1
等号が成り立つのは、ベクトル \([x_i]\) と \([y_i]\) が線形従属である場合に限られる。
また、ミンコフスキーの積不等式(Minkowski’s product inequality)は、算術平均–幾何平均の不等式(AM–GM inequality)の結果として得られる。
\left( \prod_{i=1}^{n} (x_i + y_i) \right)^{1/n} \ge \left( \prod_{i=1}^{n} x_i \right)^{1/n} + \left( \prod_{i=1}^{n} y_i \right)^{1/n} \\
\quad \\
x_i, y_i \ge 0
この不等式 (B10) においても、等号が成り立つのは \([x_i]\) と \([y_i]\) が線形従属である場合に限られる。
次に、イェンセンの不等式(Jensen’s inequality)は次のように表される。
\left( \sum_{i=1}^{n} x_i^{p_1} \right)^{1/p_1} \gt \left( \sum_{i=1}^{n} x_i^{p_2} \right)^{1/p_2} \\
\quad \\
x_i > 0,\ 0 \lt p_1 \lt p_2
この関係は、次の計算から導かれる。
\frac{ \left( \sum_{i=1}^{n} x_i^{p_2} \right)^{1/p_2} }{ \left( \sum_{i=1}^{n} x_i^{p_1} \right)^{1/p_1} }
= \left( \sum_{i=1}^{n} \left( \frac{x_i^{p_1}}{\sum_{j=1}^{n} x_j^{p_1}} \right)^{p_2/p_1} \right)^{1/p_2} \\
\quad \\
\lt \left( \sum_{i=1}^{n} \frac{x_i^{p_1}}{\sum_{j=1}^{n} x_j^{p_1}} \right)^{1/p_2}
= 1
したがって、\( 0 \lt p_1 \lt p_2 \) のとき、
\(\left( \sum x_i^{p_1} \right)^{1/p_1} \gt \left( \sum x_i^{p_2} \right)^{1/p_2}\) が成り立つことがわかる。
参考文献
凸集合と幾何学については Valentine (1964) を参照。凸関数と不等式については Boas (1972) を参照。古典的不等式 (B4)〜(B11) の証明は Beckenbach & Bellman (1965)、および Hardy, Littlewood & Pólya (1959) に掲載されている。
行列解析の総本山
総本山の目次

記号の意味



コメント