记得 AlphaZero (Alaphgo Zero 的增强版) 用了 8 个小时达到人类顶级水准(AlphaGo 李世石版本)。它使用了5000个TPU第一代和64个TPU第二代。
谷歌没有说明TPU第一代的性能数据,只说在同等功耗下,比CPU+GPU快大约30倍。2016年最快的PC的性能大概是0.5TFLOPS。考虑到TPU的功耗低,换算下来,TPU 第一代的性能大概是 5 TFLOPS;TPU第二代是45 TFLOPS,也就是快9倍;第三代TPU 又提高8倍,达到360TFLOPS
所以,TPU v3 比 TPU v1 快72倍左右。
5000个TPU第一代和64个TPU第二代相当于 5000 + 64 * 9 = 5576 个 TP v1
也就是 5576 / 72 = 78 TPU v3
考虑到一个TPU单元有256块芯片,如果用一个 TPU v3单元来训练AlphaZero,只要2.5个小时就能达到人类顶级水准。
PS: 一块 TPU v3,大概相当于 CPU+GPU 速度的一千倍。
PS 2: 2017年底,AlphaZero 4小时训练,耗资13万美元。现在,如果全部采用 TPU v3,不知道1万美元够不够。
https://en.wikipedia.org/wiki/AlphaGo_Zero
https://en.wikipedia.org/wiki/AlphaZero
https://www.quora.com/Can-I-find-out-how-many-TeraFlops-my-PC-can-calculate
https://twitter.com/demishassabis/status/963324085097959424
No comments:
Post a Comment