Friday, May 28, 2010

Bias-Variance Tradeoff

Bias(偏差)是指真正的均值和预测值之间的差值;Variance(方差)是指这个预测值作为随机变量的方差(在所有可能的训练样本上平均). 如果用公式表示,就是:

Bias(f^(x_0))=E(f^(x_0))-f(x_0)
Var(f^(x_0))=E[f^(x_0)-E[f^(x_0)]]^2

举个例子,k-NN的方差随着k的上升而下降。这表示了k-NN估计的"稳定性"随着k的上升而提高;而k越高,取的邻域就越大,用这个大邻域中的均值去估计f(x0),偏差就会增大。Bias表示预测的"准确程度";而Variance表示预测的"稳定性".


下边是一个经典的关于Bias-Variance的曲线图:
(model complexity可以理解成这个分类器输入的维度,k-NN中,k越大,复杂度就越低,即分类越粗糙;k越小,复杂度越高,即分类越细腻)

Tuesday, May 25, 2010

国史大纲 前言

凡读本书请先具下列诸信念:
   一、当信任何一国之国民,尤其是自称知识在水平线以上之国民,对其本国已往历史,应该略有所知。(否则最多只算一有知识的人,不能算一有知识的国民。)
   二、所谓对其本国已往历史略有所知者,尤必附随一种对其本国已往历史之温情与敬意。(否则只算知道了一些外国史,不得云对本国史有知识。)
   三、所谓对其本国已往历史有一种温情与敬意者,至少不会对其本国历史抱一种偏激的虚无主义,(即视本国已往历史为无一点有价值,亦无一处足以使彼满意。) 亦至少不会感到现在我们是站在已往历史最高之顶点,(此乃一种浅薄狂妄的进化观。)而将我们当身种种罪恶与弱点,一切诿卸于古人。(此乃一种似是而非之文化自谴。)
   四、当信每一国家必待其国民具备上列诸条件者比较渐多,其国家乃再有向前发展之希望。(否则其所改进,等于一个被征服国或次殖民地之改进,对其自身国家不发生关系。换言之,此种改进,无异是一种变相的文化征服,乃其文化自身之萎缩与消灭,并非其文化自身之转变与发皇。)

Friday, May 14, 2010

这几天准备的Reading List

1. Classical Probabilistic Models and Conditional Random Field, K. Roman et al,
http://www.scai.fraunhofer.de/fileadmin/images/bio/data_mining/paper/crf_klinger_tomanek.pdf
2. A Tutorial Introduction to Belief Propagation (crv09), James Coughlan
http://computerrobotvision.org/2009/tutorial_day/crv09_belief_propagation_v2.pdf
3. Understanding Belief Propagation and its Generalizations, Weiss,
http://portal.acm.org/citation.cfm?id=779352
4. Efficient Belief Propagation for Early Vision, PEDRO F. FELZENSZWALB and DANIEL P. HUTTENLOCHER,
http://www.cs.cornell.edu/~dph/papers/bp-cvpr.pdf
5. Fractional Belief Propagation (NIPS02), W. Wiegerinck et al.
http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.69.8426
6. Nonparametric Belief Propagation, Erik B. Sudderth et al.
http://ssg.mit.edu/~esuddert/papers/cvpr03.pdf
7. Data Driven Mean-Shift Belief Propagation For non-Gaussian MRFs(CVPR10), Minwoo Park et al.
http://vision.cse.psu.edu/paper/CVPR2010DDMSBP0291.pdf
8. A Constant-Space Belief Propagation Algorithm for Stereo Matching(CVPR10), Qingxiong Yang et al.
http://vision.ai.uiuc.edu/~qyang6/publications/cvpr-10-qingxiong-yang-csbp.pdf
9. Residual Belief Propagation: Informed Scheduling for Asynchronous Message Passing(UAI06), G Elidan et al.
http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.129.1828

这两天读完了前三篇,对BP和Graphical Model的理解比原来更清楚了,我简单写了一点总结。以下:

第一篇是一个Techinical Report,主要介绍了Graphical Model的一般概念,以及四种常见的Graphical Model和它们之间的相互关系。这几种Model分别为Naive Bayes Model, HMM Model, Maximum Entropy Model, Conditional Random Field. HMM是序列化的Naive Bayes,它们都属于Generative Model;而条件随机场则是序列化的最大熵模型,它们都属于判别模型(Discriminate Model)。生成模型和判别模型之间的区别在这里也有介绍。文章详细介绍了前三种模型的推导过程。在推导最大熵模型的时候,本文仅给出了最大熵模型对应的最优条件概率分布,但是没有指明Feature Function的权值lambda如何求。其实在这一点上,最大熵模型的求解非常类似SVM的最优话Margin的过程,在参数估计的时候用到的都是拉格朗日对偶式(Lagrange Duality)和凸优化的知识,具体参数求解过程可参考SVM的推导过程(Stanford CS229课程讲义)。

然后本文介绍了Graphical Model的分类(Undirected和Directed)。很显然NB和HMM属于有向图,而 Undirected Graphical Model我理解其实就是Markov Random Field。另外Factor Graph在文章中也有介绍,但是更详细的如何构造Factor Graph以及如何在Factor Graph和Bayes Network或MRF之间转换则在第三篇文章中有论述。还有一点,MRF也是表征一个Joint Distribution,CRF对应的是表征一个Conditional Distribution;MRF我理解其实是一个二维的HMM,CRF则是一个二维的Linear CRF。。。是不是很别扭。。不过应该是这样的。

本文的后半部分集中讨论了CRF,主要是Linear CRF的构造,训练,和推理。Linear CRF (L-CRF)的构造表征的是,给定一组Observation之后的一个隐藏变量序列的概率。L-CRF与HMM的区别是,L-CRF是对一个条件概率建模,而 HMM是对一个联合概率建模;而且HMM要求当前的Observation只和当前的Hidden Variable相关,而与其它Hidden Variabl是条件独立的,即别的时刻的隐藏变量不影响我当前的观测结果。但是L-CRF 放松了这一要求,允许更多的dependency出现,模型更加灵活。构建模型之前,L-CRF被转换成Factor Graph,每一个Factor都是一组特征函数的线性组合之后的指数形式,这一点与最大熵模型类似。本文讨论的训练L-CRF模型的方法是MAP方法,与MLE的区别是增加了一个关于参数lambda的先验分布,用来避免 overfitting的情况。而在进行推理时,本文采用的是与HMM中相同的Viterbi算法,用于求出给定 Observation后最可能的一个隐藏序列。其实我感觉BP算法的max-product版本和Viterbi算法非常类似。

第二篇是BP算法的一个Tutorial,主要重点如下:

第一,对于Factor的理解。在一个Bayes Network或者HMM等Directed Graphical Model中,Factor可以理解成各个变量节点的条件概率分布,我认为在这里可以理解成,一个factor对应于一个节点的CPT(条件概率表);但是在MRF等Undirected Graphical Model中,节点之间没有明确的条件概率关系,这时候Factor就可以理解成是一个关于若干变量的Compatibility Function,可以理解成描述节点之间的相互作用或者节点本身的特性。比如在MRF中,我的理解是,每个节点都是被两种因素影响,一个是和周围neighbor节点们的相互作用,另一个是节点本身的“势能”,也即Hidden Variable和对应Observed Variable之间的相互关系,因为观测值是已知的,所以可以把它们之间的相互关系类比成一种“势能”。

第二,明确了研究MRF或者Bayes Nets的目的,即求隐藏变量的Marginalized Probability和求使一个联合分布最大化的一组隐藏变量的取值。

第三,介绍的BP的基本形式,是一种Messsage Passing算法,本质即是通过不断地迭代求局部最佳值来最终获得全局的一组变量取值。如果图结构中不存在环(loop),则 BP算法是确定推理;若存在环结构,则BP算法成为一种近似推理。我对此的理解是,如果不存在环,则这张图一定存在若干“入口”(比如Bayes Nets的Root节点们),可先从这些“入口”节点入手,求出这些节点对应的Belief,然后将这些Belief 顺次传递message给其它节点;但是如果图结构中有环,则必须首先随机初始化所有message,然后通过迭代的方法求出最终解。那么这样看的话,BP算法和其它很多Gradient Descent算法(如EM,Hill Climbing算法等)共同的问题就是无法保证一定会获得全局最优解,而且这些迭代算法本身需要的迭代时间也会比较长。所以这样就有两个BP算法的研究方向,一个是如何保证或者尽量求得全局最优解,一个是如何减少迭代计算的开销。

具体的Belief计算方法和Message更新算法我省略掉,可以参考原文,实现起来应该不是太复杂。本文最后给出的一个例子就是利用BP算法解决Stereo Matching,以及若干改进建议。

第三篇文章是Weiss的一个technical report,引用次数很高。这篇文章侧重于揭示BP算法的本质,用热力学中的模型和概率图模型进行类比,说明了BP算法的物理意义。本文的讨论主要基于Pairwise Markov Random Field,由一个stereo matching的例子引出了其基本模型。这篇文章详细说明了如何将Pairwise MRF、Bayes Nets和Factor Graph之间的相互转换,并最终在MRF上对BP算法进行讨论,这样的好处是,MRF是无向的,而且Message Upadate只有一种形式(与Factor Graph不同)。

一个节点的Belief由以下因素决定:节点本身的Local Evidence(即该节点和对应的观测变量之间的关系,用Compatibility Function表示);该节点的neighbor节点向这个节点传送的message的乘积。Message的更新函数也类似:由节点i向节点j传送的message由不包括j的和节点i相邻的节点向节点i发送的message之积,节点i本身的特性(Local Evidence),以及节点i和节点j之间的相互关系共同决定。文章稍后给出了更一般的形式,即message的更新其实是节点belief的marginalization的过程,即bi = sigma(j)bij。更一般地,文章还给出了多节点Belief的形式及其message如何更新,这个是后面文章所讲的GBP(Generalized Belief Propagation)的基础。

这篇文章另一个重点是讨论了热力学的几个能量模型及它们和BP/GBP算法之间的对应关系。文章首先介绍了玻尔兹曼定律,即系统的均衡分布由系统的能量状态和温度共同决定。接下来,根据不同的assumption,作者讨论了两种形式的自由能,即Mean-Field Free Energy和Bethe Free Energy。其中,后者假定Gibbs自由能下的Belief满足Normalization Condition以及Marginalization Condition,因而BP算法和Bethe Approximation是等价的。

最后,本文讨论了Generalized Belief Propagation。这是与物理学中Kikuchi Approximation等价的,可以看作是Bethe Approximation的一种扩展形式。具体细节参见原文,其主要思想是,将一个graph分成不同的region以及它们的sub-region,并由这些cluster构造一个新的graph,在这个新构造的graph上进行BP算法(用到之前介绍的多节点的BP形式),这样做的好处是,推理过程中图的节点数量变少了,而且多节点的Belief形式比单个节点的Belief表达信息要多,所以效果应该会更好。

Tuesday, May 11, 2010

概率图模型一点点总结(2)

判别模型 和 生成模型

【摘要】
- 生成模型:无穷样本==》概率密度模型 = 产生模型==》预测
- 判别模型:有限样本==》判别函数 = 预测模型==》预测

【简介】
简单的说,假设o是观察值,q是模型。
如果对P(o|q)建模,就是Generative模型。其基本思想是首先建立样本的概率密度模型,再利用模型进行推理预测。要求已知样本无穷或尽可能的大限制。
这种方法一般建立在统计力学和bayes理论的基础之上。
如果对条件概率(后验概率) P(q|o)建模,就是Discrminative模型。基本思想是有限样本条件下建立判别函数,不考虑样本的产生模型,直接研究预测模型。代表性理论为统计学习理论。
这两种方法目前交叉较多。

【判别模型Discriminative Model】——inter-class probabilistic description

又可以称为条件模型,或条件概率模型。估计的是条件概率分布 (conditional distribution), p(class|context)。
利用正负例和分类标签,focus在判别模型的边缘分布。目标函数直接对应于分类准确率。

- 主要特点:
寻找不同类别之间的最优分类面,反映的是异类数据之间的差异。
- 优点:
分类边界更灵活,比使用纯概率方法或生产模型得到的更高级。
能清晰的分辨出多类或某一类与其他类之间的差异特征
在聚类、viewpoint changes, partial occlusion and scale variations中的效果较好
适用于较多类别的识别
判别模型的性能比生成模型要简单,比较容易学习
- 缺点:
不能反映训练数据本身的特性。能力有限,可以告诉你的是1还是2,但没有办法把整个场景描述出来。
Lack elegance of generative: Priors, 结构, 不确定性
Alternative notions of penalty functions, regularization, 核函数
黑盒操作: 变量间的关系不清楚,不可视

- 常见的主要有:
logistic regression
SVMs
traditional neural networks
Nearest neighbor
Conditional random fields(CRF): 目前最新提出的热门模型,从NLP领域产生的,正在向ASR和CV上发展。

- 主要应用:
Image and document classification
Biosequence analysis
Time series prediction

【生成模型Generative Model】——intra-class probabilistic description

又叫产生式模型。估计的是联合概率分布(joint probability distribution),p(class, context)=p(class|context)*p(context)。

用于随机生成的观察值建模,特别是在给定某些隐藏参数情况下。在机器学习中,或用于直接对数据建模(用概率密度函数对观察到的draw建模),或作为生成条件概率密度函数的中间步骤。通过使用贝叶斯rule可以从生成模型中得到条件分布。

如果观察到的数据是完全由生成模型所生成的,那么就可以 fitting生成模型的参数,从而仅可能的增加数据相似度。但数据很少能由生成模型完全得到,所以比较准确的方式是直接对条件密度函数建模,即使用分类或回归分析。

与描述模型的不同是,描述模型中所有变量都是直接测量得到。

- 主要特点:
一般主要是对后验概率建模,从统计的角度表示数据的分布情况,能够反映同类数据本身的相似度。
只关注自己的inclass本身(即点左下角区域内的概率),不关心到底 decision boundary在哪。
- 优点:
实际上带的信息要比判别模型丰富,
研究单类问题比判别模型灵活性强
模型可以通过增量学习得到
能用于数据不完整(missing data)情况
modular construction of composed solutions to complex problems
prior knowledge can be easily taken into account
robust to partial occlusion and viewpoint changes
can tolerate significant intra-class variation of object appearance
- 缺点:
tend to produce a significant number of false positives. This is particularly true for object classes which share a high visual similarity such as horses and cows
学习和计算过程比较复杂

- 常见的主要有:
Gaussians, Naive Bayes, Mixtures of multinomials
Mixtures of Gaussians, Mixtures of experts, HMMs
Sigmoidal belief networks, Bayesian networks
Markov random fields

所列举的Generative model也可以用disriminative方法来训练,比如GMM或HMM,训练的方法有EBW(Extended Baum Welch),或最近Fei Sha提出的Large Margin方法。

- 主要应用:
NLP:
Traditional rule-based or Boolean logic systems (Dialog and Lexis-Nexis) are giving way to statistical approaches (Markov models and stochastic context grammars)
Medical Diagnosis:
QMR knowledge base, initially a heuristic expert systems for reasoning about diseases and symptoms been augmented with decision theoretic formulation Genomics and Bioinformatics
Sequences represented as generative HMMs

【两者之间的关系】
由生成模型可以得到判别模型,但由判别模型得不到生成模型。
Can performance of SVMs be combined elegantly with flexible Bayesian statistics?
Maximum Entropy Discrimination marries both methods: Solve over a distribution of parameters (a distribution over solutions)

【参考网址】
http://prfans.com/forum/viewthread.php?tid=80
http://hi.baidu.com/cat_ng/blog/item/5e59c3cea730270593457e1d.html
http://en.wikipedia.org/wiki/Generative_model
http://blog.csdn.net/yangleecool/archive/2009/04/05/4051029.aspx

==================
比较三种模型:HMMs and MRF and CRF

http://blog.sina.com.cn/s/blog_4cdaefce010082rm.html

HMMs(隐马尔科夫模型):
状态序列不能直接被观测到(hidden);
每一个观测被认为是状态序列的随机函数;
状态转移矩阵是随机函数,根据转移概率矩阵来改变状态。
HMMs与MRF的区别是只包含标号场变量,不包括观测场变量。

MRF(马尔科夫随机场)
将图像模拟成一个随机变量组成的网格。
其中的每一个变量具有明确的对由其自身之外的随机变量组成的近邻的依赖性(马尔科夫性)。

CRF(条件随机场),又称为马尔可夫随机域
一种用于标注和切分有序数据的条件概率模型。
从形式上来说CRF可以看做是一种无向图模型,考察给定输入序列的标注序列的条件概率。

在视觉问题的应用:
HMMs:图像去噪、图像纹理分割、模糊图像复原、纹理图像检索、自动目标识别等
MRF: 图像恢复、图像分割、边缘检测、纹理分析、目标匹配和识别等
CRF: 目标检测、识别、序列图像中的目标分割

P.S.
标号场为隐随机场,它描述像素的局部相关属性,采用的模型应根据人们对图像的结构与特征的认识程度,具有相当大的灵活性。
空域标号场的先验模型主要有非因果马尔可夫模型和因果马尔可夫模型。

Monday, May 10, 2010

概率图模型一点点总结

1. MCMC (in Bayesian Network Inference)

MCMC的主要步骤:
给定一个贝叶斯网络的query,固定其中的evidence variable,对剩下的non-evidence

variable反复进行如下操作:
1. 随机初始化所有的non-evidence variables
2. 对于某个non-evidence variable,给定其markove blanket对其进行sample

这整个过程是一个markov链,每个状态都对应于query variable的一个sample。将这个过

程进行一段时间后(到达平稳分布),这些所有query variable的取样结果统计一下就可

以得到query variable的近似推理结果。

关于平稳分布(stationary distribution):
平稳分布要求满足detailed balance的条件(比平稳分布要更强),即P(X)q(X->X')=P(X')

q(X'->X)。
为了满足detailed balance条件,考虑一个markov chain,其中每个variable的值都是在

给定当钱状态中“所有”其它变量的当前值的情况下进行sample得到的;在贝叶斯网中,这

个条件可以放松到这个variable的markov blanket(在贝叶斯网中,对于一个变量X,X与

其它变量在给定其markov blanket的情况下条件独立)。另外为了处理markov chain的状

态转移,我们可以使用Gibbs Sampling,这可以看成是MCMC的一种特殊情况。

MCMC可以看成是Direct Sampling和Rejection Sampling等近似推理的改进。主要原因是贝

叶斯网络中进行exact inference的计算复杂度代价很高(尤其是当网络结构很复杂的时候

),近似推理可以降低开销并获得很好的效果。

2. Bayesian Network
贝叶斯网是基于贝叶斯规则的一种网络结构(有向无环图),是概率图模型的一种形式。

图的一个节点表示一个状态,图的一条边表示一个因果关系。每一个状态对应一个CPT(条

件概率表),可以用来在贝叶斯网络中进行概率推理。一般来说,条件概率表相对而言都

不大,比联合概率的表示形式要简洁很多,而且一个贝叶斯网可以表达任何一种belief

state,因此贝叶斯网络可以有效地表达很复杂的causal relationship。

上学期学过的概率推理方法有:Variable Elimination和Monte Carlo Sampling以及

likelihood weighting。

3. Stereo Matching with Belief Propagation
这篇文章主要内容有三点:一是利用MRF对Stereo Matching问题建模,二是采用Belief

Propagation对构建好的MRF模型进行概率推理,三是在此基础上增加更多的特征以提高效

果。

MRF也是概率图模型的一种,很适合用于对spatial Constraint进行建模。Markov随机场与

Gibbs Field是等价的,密度P(X) = (1/Z)*exp(-H(X)),Z是一个normalizer,H(X)是

energy function。根据MRF的Markov性质,一个site只和周围临近neighbor相关,我们可

以得到P(X(i)=Y(i)|X(s\i)=x(s\i))=(1/Z(i))exp(-H(y(i)x(s\i)))。当I比较小的时候,

由于X仅在I上进行取值,因此可在合理的时间开销范围内进行求解Z(i)。

在这篇文章中,MRF模型的目的是估算出给定图像以后其真实结构的条件概率。在进行概率

推理的时候,可以采用MCMC的方法,但是本文采用的是Belief Propagation,原因是MCMC

方法的计算开销较大。

Belief Propagation是贝叶斯网中的一种近似推理方法(存在loop的情况下需要迭代)。

BP方法分为Sum Product和Max Product两种,本文采用的是第二种,类似Viterbi算法。

最后,这个MRF模型以constraint的形式综合了其它的特征以提高性能
文章的问题是无法保证得到全局最优解;或许Hidden CRF的效果更好些?不知是否可行?

因为CRF是对序列标注问题的建模,是不是也可以用到这个问题里?它也可以包括进去隐藏

变量(HCRF),CRF得到是全局最优解。

4. Stereo Matching with Color-Weighted Correlation, Hierarchical Belief

Propagation and Occlusion Handling

这篇文章是一种global matching stereo model,主要在于:
(1) 在计算matching cost的时候,采用color weighted correlation;而前一篇文章使用

的是Birchfield and Tomasi像素差进行计算。这样的好处是算法对occlusion boundary不

那么敏感。
(2) Hierarchical Belief Propagation.
(3) Pixel Classification. 这应该是个标记(label)问题
(4) 利用绝对误差来反复迭代优化最后的结果。

孤陋寡闻了

方才知道烧香为啥要烧三柱。。。原来分别对应佛、法、僧。。无事不登三宝殿也是这个意思。
但是藏传佛教就不太一样,要烧四柱香。。。分别对应佛、法、僧、上师

Sunday, May 9, 2010

月份与花语

正月腊梅斗寒霜, 腊梅花语:独特的美丽
二月茶花白如雪, 茶花的花语是理想和可爱
三月兰花翠中立, 兰花花语富贵
四月桃花粉里白, 桃花(PeachBlossom)花语:爱情俘虏
五月玫瑰红似为, 红玫瑰花语---热恋 、热情 粉玫瑰花语---初恋
六月水栀清香撒, 栀子的花语是永恒的爱,一生的守侯与喜悦
七月荷花粉如霞, 荷花 —— 无邪、得不到的爱
八月茉莉遍地开, 茉莉:花语:你属于我、幸福、亲切、芬芳。
九月桂花香万里, 桂花的花语:永伴佳人,香满天下,誉满天下,是崇高美好的,吉祥的
十月菊花绽笑脸, 菊花花语 菊花:清净、高洁、我爱你、真情
冬月芙蓉寒中立, 芙蓉花语:脱俗持久,恩爱关怀
腊月水仙水上站, 水仙的花语:只爱自己的人

Saturday, May 8, 2010

福泽谕吉

国籍:日本

生卒年:1835—1901 出生之日,恰好其父亲福泽百助买到一部渴求已久的汉籍《上谕条例》,且是中国原版,晚上儿子降生,双喜临门,遂给儿子取名“谕吉”。

日文名:福沢谕吉

罗马字注音:fukuzawa yukichi

讳范,字子囲,雅号雪池、三十一谷人

社会职业:近代日本最著名的启蒙思想界、教育家,终生以著述、办学校、报刊为业。

家庭状况:下级士族家庭,父亲为汉学者。家中一兄三姊,福泽排行第五。生后一年半,父亲去世。

(一)以言论震撼社会的知识人

每个变革的时代,都有理论上的代言人。在日本从传统向近代转变过程中,一唱百和、以舆论摇动社会,著作一出则洛阳纸贵风靡天下者,唯有福泽谕吉。

福泽谕吉,日本天保五年十二月十二日(公元1835年1月10日)出生于大阪。约70年前,瓦特发明蒸汽机,标志人类文明进入一个新时代;整70年后,日本打败俄国,标志西方势力一统天下的状态被打破,又是一个划时代的事件。

福泽谕吉的父亲福泽百助,为九州丰前中津藩(今大分县西北部)禄米13石的下级士族,身份刚好可以按规定仪式谒见藩主。母亲是同藩士族桥本滨右卫门的长女。福泽百助是个儒学者,擅长经学诗文,以读书治学为理想,长期在中津藩设于大阪的货栈值勤管理粮食。夫妇生活于大阪,生育了5个子女。福泽谕吉为家中末子,出生一年半后父亲死,母亲率子女返回家乡中津。青少年时代生活贫困,为助家计打零工,在家乡体验了下级士族的痛苦,深恨身份等级制度,孕育了他后来成为反封建启蒙思想家的基础。近代开国以前,以中国宋代朱熹学说为根本的儒学是日本的主流意识形态,一般人家教育儿童都用四书五经。福泽谕吉接受的家庭教育也是儒教主义的,鄙视经商牟利、禁止看戏娱乐。十四五岁开始学习中国古典,《论语》、《孟子》自然不用说,对于《诗经》、《书经》也学得较深入,还跟先生读《蒙求》、《世说新语》、《战国策》、《老子》、《庄子》等书。离开学校后自学历史,读过《史记》、《汉书》、《后汉书》、《晋书》、《五代史》、《元明史略》等。特别喜欢《左传》,熟读十一遍。不但读书,少年福泽也爱手工艺,自己动手裱糊拉窗、做木屐、加工刀剑、修房屋等。青少年时代的福泽谕吉就表现出特立独行、不从流俗的性格。

1853年美国海军舰队闯入日本之事,不但给政府带来巨大恐慌,而且迅速传遍全国穷乡僻壤,人们议论纷纷,到处都在谈论炮术。20岁的青年福泽不满足于家乡中津的偏僻,渴望去外面的世界学习文才武艺。为了利用外文原著学习炮术,在长兄的建议和带领下,1854年福泽谕吉来到长崎,寄居于光永寺,开始学习荷兰语。当时的日本还在闭关锁国的德川幕府时代,与海外的交流仅限荷兰、中国商人来往日本贩卖货物,当时所谓外文就是指荷兰文。长崎游学期间生活困苦,既做过炮术家的食客,也做过和尚的仆从,节日时挨家逐户念经乞讨等事。1855年又入大阪的绪方洪庵的医学塾,努力于兰学(荷兰语言学术)。1856年长兄去世更使福泽家倾家荡产,一贫如洗。物质生活的困窘未曾阻碍福泽求学的热情,在绪方塾的学习夜以继日,时常通宵达旦,睡眠从不用枕头。学习内容是物理和医学。几十位学生围绕不足十部原文书,独自钻研和相互讨论。同时热心于实验,成功尝试在铁上镀锡、制作碘、氨、硫酸等,认识到儒学的空疏无用。1858年福泽谕吉至江户(今东京),在筑地铁炮洲的奥平家邸内开设家塾,讲兰学。正值日本刚与西方五国签订通商条约后不久,东京附近的通商口岸横滨出现了洋行,福泽谕吉开始自学英语。

虽然自1854年到长崎学习炮术开始就接触西方学术,但真正给福泽谕吉一生思想带来巨大冲击的,是访问美国、欧洲对于西方世界的观察体验。第一次是1860年2月至6月间以军舰奉行(海军司令)随员的身份,搭乘“咸临丸”横渡太平洋赴美。那是日本人1853年第一次看到轮船、1855年开始跟长崎荷兰人学习航海术后,首次独力驾驶蒸汽船横渡太平洋。在美国的所见所闻无不新鲜,精神受到极大刺激:不但第一次看到马车、电报,看到一个财富充溢的世界,而且体验了美国人的热情大方,男女平等、官民平等。福泽谕吉自述“出国之前,我们这些自以为是天下无可伦比的豪爽的书生总是目中无人,不畏一切。然而刚到美国就变得像新娘子一样地渺小了,连自己都觉得可笑。”第二次是1862年1月至1863年1月间,作为幕府派遣欧使节团的翻译方(口译)赴欧洲,周游法、英、荷、德、俄、西班牙、葡萄牙等国。第三次是1867年2月至7月间为购买军舰事,随幕府的军舰接受委员长小野友五郎一行再次赴美。美国、欧洲的游历使福泽看到公私各种工厂、银行、公司、寺院、学校、俱乐部等、医院,赴宴会、看歌舞,参观议院、选举等等,到处受到热情招待,亲身体验到外国人并不都是恶魔,也有光明正大道德高尚的好人。他深感盲目排外的攘夷论的愚昧,决心在日本大力提倡学习西洋,使日本成为欧美那样文明富强的国家。

在幕末“尊王攘夷”风潮中,攻击外国人被视作英雄行为,攘夷派打砸洋行、刺杀洋人以及本国主持外交的大臣,连学习外语的洋学者也不放过。自长崎、大阪游学开始福泽谕吉就醉心于西洋学术,但是无法公开表达自己的观点。1859年开始攘夷论兴盛起来后,打着洋伞走在街上就会招致杀身之祸。福泽谕吉对于社会事务噤口不言,埋头翻译、介绍西洋事情,一边教授英语,在担心恐惧中度过岁月。直至1873年前后的十多年期间,福泽谕吉夜间从来不敢出门,白天外出也用化名,数次险遭暗杀。尤其在政权交替时期,全社会都津津乐道政治,福泽谕吉置身事外。1868年明治新政府成立后,大力起用洋学者,多次请福泽谕吉出仕,福泽固辞不就而专心于教育和著述。他厌恶官吏们虚张声势媚上欺下的作风,虚伪的忠臣义士,认为只有国民去掉喜欢依附的奴性而具备独立心,国家才能够独立。他立志以身作则,只管做好自己本分之事。但他决非孤僻的隐士,而以自己的方式积极参与着社会活动。福泽谕吉毕生著书、办学校、办报刊,主要以笔、舌影响社会,以教化国民为职责。在日本19世纪后半期封建社会崩溃、近代社会诞生的历史剧变时代,与大久保利通、伊藤博文等人以冲锋陷阵、掌握政权来实现理想不同,福泽谕吉在民间以知识人角色,通过舆论影响社会,为日本走向文明开化而摇旗呐喊,树立了舆论领袖的的地位。1860年至1867年间在幕府外交部门做英文翻译外,终生在野。1868年4月创办私立学校庆应义塾,次年加入书籍批发业公会,经营出版业。1873年与加藤弘之、津田真道等人创办学术团体“明六社”,次年开始发行刊物《明六杂志》,组织演说会、发表论文,从事思想启蒙,提倡文明开化。1878年12月被芝区选为东京府会议员,1879年1月15日东京学士院成立,被选为第一任会长。1880年1月25日创办“交询社”,1882年3月1日创刊《时事新报》,直至1901年2月3日因脑溢血而死,始终作为知识人经营自己的事业。

福泽谕吉涉历多种学问又有广泛的游历体验,善于把自己观察思考所得以雅俗共赏的方式表达,因而他的一些编译著述、观点受到朝野广泛重视。在明治初期政府领导急欲改革而茫然无绪之际,福泽谕吉的《西洋事情》被权要置诸座右作为决策蓝本;1870年代陆续发表《劝学》、《文明论概略》等著作,空前畅销而且被选为学校教科书,流传至城乡各地。明治维新中,常受政府权要的顾问咨询,成为改革大纲的幕后决策者之一。《劝学》作为学校制度初建后的启蒙教材,对国民精神近代化产生了重要影响。1879年在《报知新闻》上提倡召开国会,两三个月间迅速激起全国舆论。他创办的《时事新报》,是官府和政党报纸之外民间独立舆论的代表。甲午战争期间带头捐资掀起国民支援战争的热潮。在知识新陈代谢、是猫是狗都以贩卖西洋学问为时髦的明治初期,福泽谕吉的观点被认为学术性最强。同时代人评论云:“(福泽)虽未尝膺台阁重权,然学堂、著书、新报之三大机关,莫不操纵如意。其对于朝野之势力,时或视当路大政治家,迥胜数筹云。”因此成为近代日本最著名的启蒙思想家、教育家,被称为“日本文明之父”、“日本的伏尔泰” 。1900年宫内省拨赐内帑5万日元,奖励其对于教育的功勋。他逝世后,众议院一致决议表示哀悼。