Med_AI学习体会 1

思考的问题

  • 机器学习是否需要理解信息的内容?信息本质规律(或者更准确的说是抽象规律)是否能代表信息本身?这种信息学上抽象逻辑是更本质的?
  • 是否理解信息的内容才是判断智能的基础,而不是仅通过概率来模拟内容?
  • 对于互联网上因立场不同而特意输出的混淆信息,计算机又如何能够识别?

随着互联网的规模越来越大,各种不准确的信息也在不断增加,那么如何才能从众多信息源中找到最权威的信息,就成了近年来搜索引擎公司面对的难题。……PageRank和其他关于网页质量的度量方式都很难衡量搜索结果的权威性(通过“乌合之众”来评分,如何保证专业性)。比如有很多媒体,它们的主要目的是娱乐大众,而不是提供准确的信息,这些媒体虽然文章写得好看,名气也大,PageRank也很高,但由于它们的目的是为了八卦娱乐(比如美国著名的《人物》周刊所属的people.com网站,或者中国的天涯论坛),因此它们的内容未必权威。

摘自《数学之美》

完全通过信息规律进行的各种内容比较、处理、分类,可以解决分类、查重、页面分级等问题,但对于内容本身的正确程度、权威程度,还是很难解决。从机器翻译的角度,这可能也是人工校对预翻译内容才能解决的问题,可能也是目前知识图谱的瓶颈——机器学习的方法的准确度尚不足以满足对内容权威准确有非常高要求的领域的需求。

现实的问题

刚刷了几篇关于病理切片采用patch-level classifier(PBC)方式分析的文章,对于这种图像分析的解题思路依然很困惑:

缩写描述缩写描述
SVDSingular Value DecompositionrmspropRoot mean square propagation
APODAll Patches in One DecisionOPODOne Patch in One Decision
MNRMacenko NormalizedWSIWhole Slide Images
mBRModified Bloom RichardsonCVChan Vese

由于整张图片比较大,所以切成多个小块进行分析然后汇总,这个与人(病理医生)的诊断思路完全不一致,而且从哲学上讲,脱离了整体的部分也失去了整体的特性。下面是几篇文献的截图:

文献1

乳腺癌的例子

文献2

从病理的诊断过程来说:

  1. 了解病例基本信息和标本取材位置,为镜下诊断提供背景信息,以便做出基本判断,如有些镜下完全正常的表现,因为是出现在了不该出现的部位,也提示出现异常;
  2. 低倍镜下寻找典型病变的位置,以免遗漏病灶;
  3. 在确定的病灶部位换用高倍镜观察,通过一些模式进行整体判断;

从皮肤病变的AI识别来说,识别病变边缘也是很重要的维度,到了病理切片图像时,是否识别病灶边缘有困难?用这样打格子的方式,产生了很多噪音,最终诊断的决策过程也与正常逻辑有很多不符。国内的切片还算是少的,美国大部分病理科会把一个病例切出几百张切片,这些切片因取材部位不同,可能还需要三维构象整合。聚焦到某一张(典型病变)切片图像中,也可能存在不同程度的病变,根据病变(癌变)程度不同、所占比例不同,对于病变恶性程度有不同的判断。不过如果只是良恶性的判断可能容易一些。

文献3

前列腺癌Gleason评分

像前列腺癌Gleason评分这种穿刺标本,虽然通过B超介导也可能穿到不是病灶的组织,即使如文献3图片中的这例只有少部分正常组织,但是机器识别跟病理医生的判断一致性仍然较低。

上面所说病理诊断过程第3条,包含的判断模式有很多,如组织类型和形态(腺泡形态、腺泡上皮细胞排列情况)、血管形态(及内容物)、结缔组织形态等等,这些模式经过patch过程之后,很大可能被破坏了,虽然说因为图片太大,才进行patch,但这种做法真的可行么?

还是回到开头的问题:“机器学习是否需要理解信息的内容?信息本质规律(或者更准确的说是抽象规律)是否能代表信息本身?这种信息学上抽象逻辑是更本质的?”

这些研究本身是有很多医生参与的,在研究过程中,技术人员有没有跟医生深入讨论这些思路、逻辑,还是说从以往语义分析所得到的经验来看,没有必要通过这种逻辑来分析(是不归路?),而是要通过抽象为统计规律进行分析。不过现在单通过CNN这条路也不一定就能走到终点吧。

要学的东西还很多

数学方面的欠缺很大,虽然有mathematics for machine learning这样的教材,但是这么多年了,当初学习的很多基础内容都还给老师了,尤其感觉概率论好像没怎么学过。后面得单独做个数学学习笔记,不过可以跟孩子教育结合起来,也算是一举多得。

发表评论