[转贴]通用CPU历史简介

大学生 · 发表于 2006-3-27 19:32:51

Pentium 4 Willamette 核心照片

Pentium 4 Northwood 核心照片

P4 Celeron 照片

XEON：Pentium 4的至强版本

XEON MP：Pentium 4的至强版本

Itanium，64位元的时代来临
　　2001年英特尔发布了Itanium(安腾)处理器。Itanium处理器是英特尔第一款64位元的产品。这是为顶级、企业级服务器及工作站设计的，在Itanium处理器中体现了一种全新的设计思想，完全是基于平行并发计算而设计(EPIC)。对于最苛求性能的企业或者需要高性能运算功能支持的应用(包括电子交易安全处理、超大型数据库、电脑辅助机械引擎、尖端科学运算等)而言，Itanium处理器基本是PC处理器中唯一的选择。
Itanium的照片

Itanium的照片

Itanium 2处理器是以Itanium架构为基础所建立与扩充的产品。提供了二位元的相容性，可与专为第一代Itanium处理器优化编译的应用程序兼容，并大幅提升了50%～100%的效能。Itanium 2具有6.4GB/sec的系统总线带宽、高达3MB的L3缓存，据英特尔称Itanium 2的性能，足足比Sun Microsystems的硬件平台高出50%。
Itanium 2的照片

Itanium核心的照片

[Itanium2核心的照片

大学生 · 发表于 2006-3-27 19:33:16

[url=http://bbs.cpcw.com/misc.php?action=viewratings&tid=196371&pid=1849939][/url]
Pentium M，移动、网络、节能的铁骑
　　2003年英特尔发布了Pentium M处理器。以往虽然有移动版本的Pentium II、III，甚至是Pentium 4-M产品，但是这些产品仍然是基于台式电脑处理器的设计，再增加一些节能，管理的新特性而已。即便如此，Pentium III-M和Pentium 4-M的能耗远高于专门为移动运算设计的CPU，例如全美达的处理器。
　　英特尔Pentium M处理器结合了855芯片组家族与Intel PRO/Wireless2100网络联机技术，成为英特尔Centrino(迅驰)移动运算技术的最重要组成部分。Pentium M处理器可提供高达1.60GHz的主频速度，并包含各种效能增强功能，如：最佳化电源的400MHz系统总线、微处理作业的融合(Micro-OpsFusion)和专门的堆栈管理器(Dedicated Stack Manager)，这些工具可以快速执行指令集并节省电力。
　　更关键的是，Pentium M处理器加上802.11的无线WiFi技术，就构成了英特尔Centrino(迅驰)移动运算技术的整套解决方案。这样不仅具备了节能、长续航时间的优点，更领导了目前流行的无线网络风尚。因此，IBM、Sony、HP等各大笔记本电脑厂商已经全面转用Pentium M处理器来制造自己的主流产品。
照片

顺便把Mobile Pentium II的照片补上

Mobile Celeron

Mobile Pentium III

大学生 · 发表于 2006-3-27 19:33:36

AMD
接下来该介绍AMD的CPU了
首先是AMD8080

AMD8088-2-BQA

AMDAMZ8002

AMDAMZ8068DC

AMDD8086

AMDC80186-3

AMDCG80286-8-C2

AMDAm29000-25GC
AMDAm29030-25GC

AMDAm29040-33GC

AMDA80386DXL-33

AMDNG80386SXL-33

AMDNG80386DX-40

AMDA80486SX2-66

AMDK5PR100ABQ

AMDK5PR133ABQ

AMDK6200ALYD
k6-300A

k6-2-350
k6-iii

[AMD athlon
一颗有纪念意义的CPU

thunderbird核心的athlon

大学生 · 发表于 2006-3-27 19:34:14

duron

palomino核心的athlon xp 2000+

thunderbird核心的athlon
AMD K5核心照片

AMD K6核心照片

AMD K6-2核心照片

AMD K6-III核心照片
AMD K7 (Athlon)

AMD K6-III核心照片

AMD Opteron（K8）核心照片

大学生 · 发表于 2006-3-27 19:36:18

CPU又叫中央处理器，是英文单词Central Processing Unit的缩写，负责对信息和数据进行运算和处理，并实现本身运行过程的自动化。在早期的计算机当中，CPU被分成了运算器和控制器两个部分，后来由于电路集成度的提高，在微处理器问世时，就将它们都集成在一个芯片中了。需要智能控制、大量信息处理的地方就会用到CPU。
CPU有通用CPU和嵌入式CPU，通用和嵌入式的分别，主要是根据应用模式的不同而划分的。通用CPU芯片的功能一般比较强，能运行复杂的操作系统和大型应用软件。嵌入式CPU在功能和性能上有很大的变化范围。随着集成度的提高，在嵌入式应用中，人们倾向于把CPU、存储器和一些外围电路集成到一个芯片上，构成所谓的系统芯片（简称为SOC），而把SOC上的那个CPU成为CPU芯核。
现在，指令系统的优化设计有两个截然相反的方向。一个是增强指令的功能,设置一些功能复杂的指令，把一些原来有软件实现的常用功能改用硬件的指令系统来实现，这种计算机成为复杂指令系统计算机。早期Intel的X86指令体系就是一种CISC指令结构。
RISC是Reduced Instruction Set Computer的缩写中文翻译成精简指令系统计算机，是八十年代发展起来的，尽量简化指令功能，只保留那些功能简单，能在一个节拍内执行完成的指令，较复杂的功能用一段子程序来实现，这种计算机系统成为精简指令系统计算机。目前采用RISC体系结构的处理器的芯片厂商有SUN、SGI、IBM的Power PC系列、DEC公司的Alpha系列、Motorola公司的龙珠和Power PC等等。
MIPS是世界上很流行的一种RISC处理器。MIPS的意思是"无内部互锁流水级的微处理器"(Microprocessor without interlocked piped stages)，其机制是尽量利用软件办法避免流水线中的数据相关问题。他最早是在80年代初期由斯坦福（Stanford）大学Hennessy教授领导的研究小组研制出来的。MIPS公司的R系列就是在此基础上开发的RISC工业产品的微处理器。这些系列产品以为很多打计算机公司采用构成各种工作站和计算机系统。
要讲CPU，就必须先讲一下指令系统。指令系统指的是一个CPU所能够处理的全部指
令的集合，是一个CPU的根本属性。比如我们现在所用的CPU都是采用x86指令集的，他们都是同一类型的CPU，不管是PIII、Athlon或Joshua。我们也知道，世界上还有比PIII和Athlon快得多的CPU，比如Alpha，但它们不是用x86指令集，不能使用数量庞大的基于x86指令集的程序，如Windows98。之所以说指令系统是一个CPU的根本属性，是因为指令系统决定了一个CPU能够运行什么样的程序。
所有采用高级语言编出的程序，都需要翻译（编译或解释）成为机器语言后才能运行，这些机器语言中所包含的就是一条条的指令。
一条指令一般包括两个部分：操作码和地址码。操作码其实就是指令序列号，用来告诉CPU需要执行的是那一条指令。地址码则复杂一些，主要包括源操作数地址、目的地址和下一条指令的地址。在某些指令中，地址码可以部分或全部省略，比如一条空指令就只有操作码而没有地址码。
举个例子吧，某个指令系统的指令长度为32位，操作码长度为8位，地址长度也为8位，且第一条指令是加，第二条指令是减。当它收到一个“00000010000001000000000100000110”的指令时，先取出它的前8位操作码，即00000010，分析得出这是一个减法操作，有3个地址，分别是两个源操作数地址和一个目的地址。于是，CPU就到内存地址00000100处取出被减数，到00000001处取出减数，送到ALU中进行减法运算，然后把结果送到00000110处。
这只是一个相当简单化的例子，实际情况要复杂的多。

一般说来，现在的指令系统有以下几种类型的指令：
（１）算术逻辑运算指令
算术逻辑运算指令包括加减乘除等算术运算指令，以及与或非异或等逻辑运算指令。现在的指令系统还加入了一些十进制运算指令以及字符串运算指令等。
（２）浮点运算指令
用于对浮点数进行运算。浮点运算要大大复杂于整数运算，所以CPU中一般还会有专门负责浮点运算的浮点运算单元。现在的浮点指令中一般还加入了向量指令，用于直接对矩阵进行运算，对于现在的多媒体和3D处理很有用。
（３）位操作指令
学过C的人应该都知道C语言中有一组位操作语句，相对应的，指令系统中也有一组位操作指令，如左移一位右移一位等。对于计算机内部以二进制不码表示的数据来说，这种操作是非常简单快捷的。
（４）其他指令
上面三种都是运算型指令，除此之外还有许多非运算的其他指令。这些指令包括：数据传送指令、堆栈操作指令、转移类指令、输入输出指令和一些比较特殊的指令，如特权指令、多处理器控制指令和等待、停机、空操作等指令。
对于指令中的地址码，也会有许多不同的寻址（编址）方式，主要有直接寻址，间接寻址，寄存器寻址，基址寻址，变址寻址等，某些复杂的指令系统会有几十种甚至更多的寻址方式。

大学生 · 发表于 2006-3-27 19:36:47

3、 CISC与RISC
CISC，Complex Instruction Set Computer，复杂指令系统计算机。RISC，Reduced Instruction Set Computer，精简指令系统计算机。虽然这两个名词是针对计算机的，但下文我们仍然只对指令集进行研究。
（１）CISC的产生、发展和现状
一开始，计算机的指令系统只有很少一些基本指令，而其他的复杂指令全靠软件编译时通过简单指令的组合来实现。举个最简单的例子，一个a乘以b的操作就可以转换为a个b相加来做，这样就用不着乘法指令了。当然，最早的指令系统就已经有乘法指令了，这是为什么呢？因为用硬件实现乘法比加法组合来得快得多。
由于那时的计算机部件相当昂贵，而且速度很慢，为了提高速度，越来越多的复杂指令被加入了指令系统中。但是，很快又有一个问题：一个指令系统的指令数是受指令操作码的位数所限制的，如果操作码为8位，那么指令数最多为256条（2的8次方）。
那么怎么办呢？指令的宽度是很难增加的，聪明的设计师们又想出了一种方案：操作码扩展。前面说过，操作码的后面跟的是地址码，而有些指令是用不着地址码或只用少量的地址码的。那么，就可以把操作码扩展到这些位置。
举个简单的例子，如果一个指令系统的操作码为2位，那么可以有00、01、10、11四条不同的指令。现在把11作为保留，把操作码扩展到4位，那么就可以有00、01、10、1100、1101、1110、1111七条指令。其中1100、1101、1110、1111这四条指令的地址码必须少两位。
然后，为了达到操作码扩展的先决条件：减少地址码，设计师们又动足了脑筋，发明了各种各样的寻址方式，如基址寻址、相对寻址等，用以最大限度的压缩地址码长度，为操作码留出空间。
就这样，慢慢地，CISC指令系统就形成了，大量的复杂指令、可变的指令长度、多种的寻址方式是CISC的特点，也是CISC的缺点：因为这些都大大增加了解码的难度，而在现在的高速硬件发展下，复杂指令所带来的速度提升早已不及在解码上浪费点的时间。除了个人PC市场还在用x86指令集外，服务器以及更大的系统都早已不用CISC了。x86仍然存在的唯一理由就是为了兼容大量的x86平台上的软件。
（２）RISC的产生、发展和现状
1975年，IBM的设计师John Cocke研究了当时的IBM370CISC系统，发现其中占总指令数仅20%的简单指令却在程序调用中占了80%，而占指令数80%的复杂指令却只有20%的机会用到。由此，他提出了RISC的概念。
事实证明，RISC是成功的。80年代末，各公司的RISC CPU如雨后春笋般大量出现，占据了大量的市场。到了90年代，x86的CPU如pentium和k5也开始使用先进的RISC核心。
RISC的最大特点是指令长度固定，指令格式种类少，寻址方式种类少，大多数是简单指令且都能在一个时钟周期内完成，易于设计超标量与流水线，寄存器数量多，大量操作在寄存器之间进行。由于下文所讲的CPU核心大部分是讲RISC核心，所以这里就不多介绍了，对于RISC核心的设计下面会详细谈到。
RISC目前正如日中天，Intel的Itanium也将最终抛弃x86而转向RISC结构。
二、CPU内核结构
好吧，下面来看看CPU。CPU内核主要分为两部分：运算器和控制器。
（一）运算器
1、算术逻辑运算单元ALU（Arithmetic and Logic Unit）
ALU主要完成对二进制数据的定点算术运算（加减乘除）、逻辑运算（与或非异或）以及移位操作。在某些CPU中还有专门用于处理移位操作的移位器。
通常ALU由两个输入端和一个输出端。整数单元有时也称为IEU（Integer Execution Unit）。我们通常所说的“CPU是XX位的”就是指ALU所能处理的数据的位数。
2、浮点运算单元FPU（Floating Point Unit）
FPU主要负责浮点运算和高精度整数运算。有些FPU还具有向量运算的功能，另外一些则有专门的向量处理单元。
３、通用寄存器组
通用寄存器组是一组最快的存储器，用来保存参加运算的操作数和中间结果。
在通用寄存器的设计上，RISC与CISC有着很大的不同。CISC的寄存器通常很少，主要是受了当时硬件成本所限。比如x86指令集只有8个通用寄存器。所以，CISC的CPU执行是大多数时间是在访问存储器中的数据，而不是寄存器中的。这就拖慢了整个系统的速度。而RISC系统往往具有非常多的通用寄存器，并采用了重叠寄存器窗口和寄存器堆等技术使寄存器资源得到充分的利用。
对于x86指令集只支持8个通用寄存器的缺点，Intel和AMD的最新CPU都采用了一种叫做“寄存器重命名”的技术，这种技术使x86CPU的寄存器可以突破8个的限制，达到32个甚至更多。不过，相对于RISC来说，这种技术的寄存器操作要多出一个时钟周期，用来对寄存器进行重命名。
４、专用寄存器
专用寄存器通常是一些状态寄存器，不能通过程序改变，由CPU自己控制，表明某种状态。
（二）控制器
　　运算器只能完成运算，而控制器用于控制着整个CPU的工作。
1、指令控制器
　　指令控制器是控制器中相当重要的部分，它要完成取指令、分析指令等操作，然后交给执行单元（ALU或FPU）来执行，同时还要形成下一条指令的地址。
2、时序控制器
时序控制器的作用是为每条指令按时间顺序提供控制信号。时序控制器包括时钟发生器和倍频定义单元，其中时钟发生器由石英晶体振荡器发出非常稳定的脉冲信号，就是CPU的主频；而倍频定义单元则定义了CPU主频是存储器频率（总线频率）的几倍。
3、总线控制器
　　总线控制器主要用于控制CPU的内外部总线，包括地址总线、数据总线、控制总线等等。
4、中断控制器
　　中断控制器用于控制各种各样的中断请求，并根据优先级的高低对中断请求进行排队，逐个交给CPU处理。
（三） CPU核心的设计
CPU的性能是由什么决定的呢？单纯的一个ALU速度在一个CPU中并不起决定性作用，因为ALU的速度都差不多。而一个CPU的性能表现的决定性因素就在于CPU内核的设计。
1、超标量（Superscalar）
　　既然无法大幅提高ALU的速度，有什么替代的方法呢？并行处理的方法又一次产生了强大的作用。所谓的超标量CPU，就是只集成了多个ALU、多个FPU、多个译码器和多条流水线的CPU，以并行处理的方式来提高性能。
　　超标量技术应该是很容易理解的，不过有一点需要注意，就是不要去管“超标量”之前的那个数字，比如“9路超标量”，不同的厂商对于这个数字有着不同的定义，更多的这只是一种商业上的宣传手段。
2、流水线（Pipeline）
　　流水线是现代RISC核心的一个重要设计，它极大地提高了性能。
　　对于一条具体的指令执行过程，通常可以分为五个部分：取指令，指令译码，取操作数，运算（ALU），写结果。其中前三步一般由指令控制器完成，后两步则由运算器完成。按照传统的方式，所有指令顺序执行，那么先是指令控制器工作，完成第一条指令的前三步，然后运算器工作，完成后两步，在指令控制器工作，完成第二条指令的前三步，在是运算器，完成第二条指令的后两部……很明显，当指令控制器工作是运算器基本上在休息，而当运算器在工作时指令控制器却在休息，造成了相当大的资源浪费。解决方法很容易想到，当指令控制器完成了第一条指令的前三步后，直接开始第二条指令的操作，运算单元也是。这样就形成了流水线系统，这是一条2级流水线。
　　如果是一个超标量系统，假设有三个指令控制单元和两个运算单元，那么就可以在完成了第一条指令的取址工作后直接开始第二条指令的取址，这时第一条指令在进行译码，然后第三条指令取址，第二条指令译码，第一条指令取操作数……这样就是一个5级流水线。很显然，5级流水线的平均理论速度是不用流水线的4倍。
　　流水线系统最大限度地利用了CPU资源，使每个部件在每个时钟周期都工作，大大提高了效率。但是，流水线有两个非常大的问题：相关和转移。
　　在一个流水线系统中，如果第二条指令需要用到第一条指令的结果，这种情况叫做相关。以上面哪个5级流水线为例，当第二条指令需要取操作数时，第一条指令的运算还没有完成，如果这时第二条指令就去取操作数，就会得到错误的结果。所以，这时整条流水线不得不停顿下来，等待第一条指令的完成。这是很讨厌的问题，特别是对于比较长的流水线，比如20级，这种停顿通常要损失十几个时钟周期。目前解决这个问题的方法是乱序执行。乱序执行的原理是在两条相关指令中插入不相关的指令，使整条流水线顺畅。比如上面的例子中，开始执行第一条指令后直接开始执行第三条指令（假设第三条指令不相关），然后才开始执行第二条指令，这样当第二条指令需要取操作数时第一条指令刚好完成，而且第三条指令也快要完成了，整条流水线不会停顿。当然，流水线的阻塞现象还是不能完全避免的，尤其是当相关指令非常多的时候。
　　另一个大问题是条件转移。在上面的例子中，如果第一条指令是一个条件转移指令，那么系统就会不清楚下面应该执行那一条指令？这时就必须等第一条指令的判断结果出来才能执行第二条指令。条件转移所造成的流水线停顿甚至比相关还要严重的多。所以，现在采用分支预测技术来处理转移问题。虽然我们的程序中充满着分支，而且哪一条分支都是有可能的，但大多数情况下总是选择某一分支。比如一个循环的末尾是一个分支，除了最后一次我们需要跳出循环外，其他的时候我们总是选择继续循环这条分支。根据这些原理，分支预测技术可以在没有得到结果之前预测下一条指令是什么，并执行它。现在的分支预测技术能够达到90%以上的正确率，但是，一旦预测错误，CPU仍然不得不清理整条流水线并回到分支点。这将损失大量的时钟周期。所以，进一步提高分支预测的准确率也是正在研究的一个课题。
　　越是长的流水线，相关和转移两大问题也越严重，所以，流水线并不是越长越好，超标量也不是越多越好，找到一个速度与效率的平衡点才是最重要的。

大学生 · 发表于 2006-3-27 19:37:05

三、CPU的外核
1、解码器（Decode Unit）
　　这是x86CPU才有的东西，它的作用是把长度不定的x86指令转换为长度固定的类似于RISC的指令，并交给RISC内核。解码分为硬件解码和微解码，对于简单的x86指令只要硬件解码即可，速度较快，而遇到复杂的x86指令则需要进行微解码，并把它分成若干条简单指令，速度较慢且很复杂。好在这些复杂指令很少会用到。
　　Athlon也好，PIII也好，老式的CISC的x86指令集严重制约了他们的性能表现。
2、一级缓存和二级缓存（Cache）
　　以及缓存和二级缓存是为了缓解较快的CPU与较慢的存储器之间的矛盾而产生的，以及缓存通常集成在CPU内核，而二级缓存则是以OnDie或OnBoard的方式以较快于存储器的速度运行。对于一些大数据交换量的工作，CPU的Cache显得尤为重要。
下面发几张非PC用的CPU
DEC DECchip-210 Alpha CPU

还是M1

另外一颗100MHz的M1

背面

还是M1，不过公司名称换了

背面

大学生 · 发表于 2006-3-27 19:38:17

这是M1系列的核心照片（其中的一张）

M2打开后盖的照片

M2核心照片

打着IBM标记的M2

背面

Cyrix标记的M2

背面

这颗M2样子比较酷啊，像巧克力

巧克力的背面

话说后来Cyrix被VIA吞并了，于是VIA的Cyrix出现了，就是M3系列

这颗叫做“JOSHUA”

大学生 · 发表于 2006-3-27 19:39:16

M3

NexGen的Nx586

背面

NexGen的Nx586FP

背面

NexGen Nx686

背面

NexGen Nx686的另外一种样子

背面

大学生 · 发表于 2006-3-27 19:39:51

由于早上没有找到最新的AMDK8处理器的高清晰度照片，现在补上，首先是K8 754pin的图片

还是K8 754pin，封装不同

K8 940pin

好，接着回顾从前的CPU……
这次该IDT公司的CPU了
这是一颗586级别的CPU

背面

这颗CPU的核心照片

Rise mP6

背面
[Transmeta公司的TM3200

Transmeta公司的TM5400

Transmeta公司的TM5600

Transmeta公司的TM5800

Transmeta公司的TM5900

Transmeta公司的TM8600

上面这颗CPU的背面

账号		自动登录	找回密码
密码			立即注册