4. 网站的高性能架构
网站性能优化的主要工作:改善高并发用户访问情况下的网站响应速度。
4.1 不同视角下的网站性能
用户角度
从用户的角度来说,网站的性能就是用户在浏览器上直观感受到的网站响应速度。
在实践中,使用一些前端架构优化手段,通过优化页面 HTML 式样、利用浏览器端的并发和异步特性、调整浏览器缓存策略、使用 CDN 服务、反向代理等手段,使浏览器尽快地显示用户感兴趣的内容、尽可能近地获取页面内容,即使不优化应用程序和架构,也可以很大程度地改善用户视角下的网站性能。
开发人员
应用程序本身及其相关子系统的性能:响应延迟、系统吞吐量、并发处理能力、系统稳定性。
优化手段:
- 使用缓存加速数独读取;
- 使用集群提高吞吐能力;
- 使用异步消息加快请求响应及实现削峰;
- 使用代码优化手段改善程序性能;
运维人员
运维人员关注基础设施性能和资源利用率:网络运营商的带宽能力、服务器硬件的配置、数据中心网络架构、服务器和网络带宽的资源利用率等。
优化手段:
- 建设优化骨干网;
- 使用高性价比定制服务器;
- 利用虚拟化技术优化资源利用;
4.2 性能测试指标
响应时间 —— 应用执行一个操作需要的时间
测试方法:重复请求,计算平均值。
并发数 —— 系统能够同时处理请求的数目
网站系统用户数 > 网站在线用户数 > 网站并发用户数
测试程序通过多线程模拟并发用户的办法来测试系统的并发处理能力,为了真实模拟用户行为,测试程序并不是启动多线程然后不停地发送请求,而是在两次请求之间加入一个随机等待时间,这个时间被称作思考时间。
吞吐量 —— 单位时间内系统处理的请求数目
衡量吞吐量的量化指标:
- TPS(每秒事务数);
- HPS(每秒 HTTP 请求数);
- QPS(每秒查询数);
网站性能优化的目的,改善用户体验、提高系统吞吐量,最大限度地利用服务器资源。
性能计数器
描述服务器或操作系统性能的数据指标:System Load、对象与线程数、内存使用、CPU 使用、磁盘与网络 I/O 等。
System Load(系统负载),指当前正在被 CPU 执行和等待被 CPU 执行的进程数目的总和,是反映系统闲忙程度的重要指标。
在 Linux 系统中,使用 top
命令查看。
4.3 性能测试方法
4.4 性能优化策略
性能分析
排查一个网站的性能瓶颈和排查一个程序的性能瓶颈的手法基本相同:检查请求处理的各个环节的日志,分析哪个环节响应时间不合理、超过预期;然后检查监控数据,分析影响性能的主要因素是内存、磁盘、网络还是 CPU,是代码问题还是架构设计不合理,或者系统资源确实不足。
性能优化
- Web 前段优化。
- 应用服务器性能优化。
- 存储服务器性能优化。
4.5 Web 前端优化
浏览器访问优化
1. 减少 http 请求
主要手段:合并 CSS、合并 JavaScript、合并图片等。
2. 使用浏览器缓存
通过设置 HTTP 头中 Cache-Control 和 Expries 的属性,设置浏览器缓存,缓存像 CSS、JavaScript 、Logo、图片等静态资源。
更新静态资源文件时,通过更改文件名实现,采用逐量更新策略。
3. 启用压缩
HTML、CSS、JavaScript 文件启用 GZip 压缩可达到较好的效果。
4. CSS 放在页面最上面、JavaScript 放在页面最下面
- 浏览器会在下载完全部的 CSS 之后才对整个网页进行渲染,因此,CSS 放在页面最上面。
- 浏览器在加载 JavaScript 后会立即执行,可能会阻塞页面,因此,JavaScript 放在页面最下面。
5. 减少 Cookie 传输
- 一方面,Cookie 包含在每次的请求和响应中,太大的 Cookie 会严重影响数据传输,因此哪些数据需要写入 Cookie 需要慎重考虑,尽量减少 Cookie 中传输的数据量。
- 另一方面,对于某些静态资源的访问,如 CSS、JavaScript 等,发送 Cookie 没有意义,可以考虑静态资
源使用独立域名访问,避免请求静态资源时发送 Cookie ,减少 Cookie 传输的次数。
4.6 CDN 加速
CDN(内容分发网络)将数据缓存在离用户最近的地方,使用户以最快的速度获取数据,即所谓的网络访问第一跳。
CDN 能够缓存的内容一般是静态资源:图片、文件、CSS、Script 脚本、静态网页等。
4.7 反向代理
反向代理服务器位于网站机房一侧,代理网站 Web 服务器接收 HTTP 请求。
反向代理的作用:
- 安全功能;
- 可以配置缓存功能加速 Web 请求;
- 可以实现负载均衡;
4.8 应用服务器性能优化
分布式缓存
网站性能优化第一定律:优先考虑使用缓存优化性能。
- 缓存原理:将数据存储在相对较高访问速度的存储介质中,以供系统处理。
- 缓存主要存放读写比高、变化少的数据。
- 网站数据访问的二八定律:80% 的访问落在 20% 的数据上。
合理使用缓存:
- 频繁修改的数据;
- 没有热点的访问;
- 数据不一致与脏读。设置缓存数据失效时间。
- 缓存可用性。通过缓存热备提高缓存可用性。
- 缓存预热:在缓存系统启动时加载热点数据。
- 缓存穿透:将不存在的数据也缓存起来(其 value 值为 null)。
分布式缓存的两种架构:
- 以 JBoss Cache 为代表的需要更新同步的分布式缓存;
- 以 Memcached 为代表的不互相通信的分布式缓存;
异步操作
使用消息队列将调用异步化,可改善网站的扩展性。
消息队列的削峰作用:通过异步处理,将短时间高并发产生的事务消息存储在消息队列中,从而削平高峰期的并发事务。
使用集群
使用负载均衡技术为一个应用构建一个由多台服务器组成的服务器集群。
代码优化
1. 多线程
使用多线程的原因:IO 阻塞与多 CPU。
启动线程数 = [任务执行时间 /(任务执行时间 - IO 等待时间)] * CPU 内核数
最佳启动线程数和 CPU 内核数量成正比,和 I/O 等待时间成正比。
编程上,解决线程安全的手段:
- 将对对象设计为无状态的。
- 使用局部对象。
- 并发访问资源时使用锁。
2. 资源复用
资源复用的两种模式:
- 单例;
- 对象池;
3. 数据结构
Hah 表的读写性能在很大程度上依赖 HashCode 的随机性。HashCode 越随机散列,Hah 表的冲突就越少,读写性能也就越高,目前比较好的字符串 Hash 散列算法有 Time3 3 算法即对字符串逐字符迭代乘以 33。
4. 垃圾回收
- 理解 JVM 的垃圾回收机制。
4.9 存储性能优化
机械硬盘 & 固态硬盘(SSD)。
为了改善数据访问特性,文件系统或数据库系统通常会对数据库排序后存储,加快数据检索速度。
传统关系型数据库的做法:B + 树。
使用 RAID(廉价磁盘冗余阵列)改善磁盘的访问延迟,增强磁盘的可用性和容错能力。
通过使用 RAID 技术,可以实现数据在多块磁盘上的并发读写和数据备份。
HDFS 技术。